为 什么 要 写 这 本 书 


大 数据 是 继 云 计 算 、 物 联网 之 后 IT 行业 又 一 次 颠覆 性 的 技术 革命 。 


说 ,现在 Hadoop 是 大 数据 处 理 的 关键 技术 ， 也 是 迄今 为 止 ， 最 成 熟 、 应 


HBase 原 型 是 Google 的 BigTable 论 文 ， 从 基因 
期 比较 长 ， 所 以 现在 大 部 分 公司 的 工作 人 员 很 难 在 短 时 间 内 快速 掌握 并 使 


此 外 ， 现 在 有 关 HBase 的 中 文学 习 资 料 非常 少 ， 
惯 ， 并 且 实 例 讲解 部 分 也 不 能 切合 本 士 


大 数据 在 互联 网 、 军 导 


最 广泛 的 技术 。 


上 讲 ，HBase 已 经 是 Hadoop 生 态 系统 不 可 或 缺 的 一 部 分 。HBase 是 完全 开源 的 ， 同 时 存在 多 个 版 本 ， 并 且 


也 给 研发 人 员 的 学 习 带 来 了 很 大 的 难度 。 尽 管 现在 市 


HBase 框 架 。 


H 


E3 


情 。 


b 是 国 


本 书 以 HBase 0.94 为 
系统 运 维和 性 能 调 优 的 技巧 。 


读者 对 象 


本 书 适 合 以 下 读者 阅读 。 


(1) 云 计算 、 大 数据 处 理 技术 和 NoSQL 数 


“大 数据 ”无 疑 是 继 “ 云 计算 ”之 后 IT 业界 最 热门 的 词汇 。 而 云 计算 、 大 数据 、NoSQL 技 术 本 身 存 在 交集 ， 现 在 不 少 研 究 云 计算 的 公司 或 机 构 都 开始 涉猎 大 数据 和 NoSQL 领 域 ， 本 书 讲解 的 HBase 数 据 


库 是 NoSQL 的 一 种 ， 同 时 是 大 数据 处 理 的 关键 技术 ， 本 书 可 以 帮助 这 部 分 读者 快速 目 全 面 地 了 解 HBase 的 原理 、 架 构 、 使 


内 第 一 本 系统 讲解 HBase 理 论 、 实 战 和 运 维 调 优 的 书籍 。 


础 ， 不 仅 深 入 探讨 了 HBase 的 原理 架构 和 数据 模型 ， 更 重 


居 库 爱好 者 


(2) 对 Hadoop 及 HBase 感 兴趣 的 


Hadoop: 


念 
念 、 


(3) 使 


HBase 作 为 NoSQL 数 据 库 的 一 种 ， 
够 帮助 该 部 分 读者 快速 掌 


(4) 开源 软件 爱好 者 


发 人 员 


技术 在 近 几 年 非常 热 ， 它 已 经 是 大 数据 处 理 的 关键 技术 ， 而 HBase 作 为 Hadoop 生 态 系 统 的 
核心 知识 点 和 高 级 特性 ， 并 且 结 合 实战 案例 讲解 ， 使 得 读者 可 以 快速 掌握 HBase 的 使 用 。 


HBase 进 行 数 据 库 开 发 或 运 维 的 高 级 DBA 


还 有 ， 这 几 本 书 分 别 侧 


EIE—J75 


的 是 通过 实际 案例 教会 读者 如 何 运 


要 组 件 ， 已 经 被 越 来 越 多 的 公司 使 


、 人 金融 、 通 信和 物理 学 等 领域 已 经 有 不 少 落 地 案例 ， 而 Hadoop 技 术 的 快速 发 


上 已 经 有 几 本 关于 HBase 的 中 文书 ， 但 是 ， 这 几 本 书 都 是 翻译 作品 ， 语 言 的 组 织 不 符合 | 
面 ， 如 理论 、 实 战 、 运 维 等 ， 还 没有 一 本 书 能 够 非常 系统 地 阐述 HBase 框 架 。 本 书 正 是 为 了 解决 以 上 各 种 问题 而 编写 的 ， 


展 也 引起 业界 广泛 关注 。 可 以 


| 版 本 升级 非常 快 ， 其 学 习 成 本 比较 高 ， 学 习 周 


人 的 习 


国 


HBase 框 架 来 设计 、 搭 建 及 运行 大 数据 应 有 


理解 HBase 在 云 计算 、 


系统 ， 同 时 结合 生产 案例 剖析 HBase 


大 数据 和 NoSQL 中 的 位 置 。 


。 本 书 详细 介绍 了 HBase 与 Hadoop 的 关系 、HBase 的 基本 概 


被 越 来 越 多 的 企业 应 


作 底 


HBase 作 为 Apache 


解 和 掌握 HBase 框 架 源 代码 的 设计 方法 和 技巧 。 


(5) 开设 相关 课程 的 高 等 院 校 学 生 


屋 存 储 或 者 中 间 存 储 。 本 书 不 但 讲解 了 HBase 的 原理 和 架构 ， 更 和 


屋 大 型 分 布 式 数据 库 的 安装 、 运 维和 调 优 技巧 。 


现在 越 来 越 多 的 高 等 院 校 已 经 开设 了 大 数据 方向 的 学 生 培 养 课程 。 在 这 些 课程 中 ，Hadoop 生 态 系 统 技术 是 核心 课程 ， 本 书 详细 


为 参考 教材 使 用 。 


如 何 阅读 本 书 


本 书 分 为 三 大 部 分 。 


第 一 部 分 为 基础 


(第 1~5 章 ) , f Adi 


第 二 部 分 为 实战 / 


第 三 部 分 为 高 级 


(第 9~12 章 ) , 


最 后 本 书 列 出 了 三 个 附录 供 读者 参考 。 


附录 A 为 HBase 框 架 所 有 配置 参数 


的 介绍 。 


附录 B 为 基于 HBase 的 SQL 引擎 工 


Phoenix 的 SQL 语法 详解 。 


附录 C 为 HBase 性 能 测试 工 


如 果 你 是 一 名 已 经 具备 一 定 Hadoop、HBase 基 础 知识 和 使 用 经 验 的 用 户 ， 那 么 可 以 直接 阅读 第 二 部 分 和 第 三 部 分 。 第 二 部 分 侧重 


YCSB 编 译 安装 介绍 。 


名 初学 者 ， 请 一 定 从 第 1 章 的 基础 理论 知识 开始 学 习 。 


勘误 和 支持 


居 背 景 、HBase 基 本 原理 、 模 式 设 计 、HBase 的 安装 部 署 和 所 支持 客户 端 API 及 使 


(第 6~8 章 ) ， 通 过 三 个 典型 的 应 用 案例 和 代码 示例 ， 结 合 实践 技巧 和 理论 知识 ， 深 入 讲解 如 何 使 用 HBase 设 计 大 型 数据 应 


要 的 是 详细 介绍 了 HBase 的 使 


方法 。 


系统 。 


方法 、 运 维 监控 和 系统 调 优 方法 ， 能 


金 会 的 顶级 优秀 开源 项 目 ， 其 实现 过 程 中 吸收 了 很 多 开源 领域 的 优秀 思想 ， 同 时 也 值得 我 们 深入 研究 和 学 习 。 本 书 在 讲解 过 程 中 剖析 了 不 少 HBase 源 代码 ， 可 以 帮助 该 部 分 读者 了 


介绍 Hadoop 生 态 系统 重要 组 件 一 一 HBase， 这 部 分 读者 可 以 将 本 书 作 


重点 介绍 HBase 的 整体 架构 、 高 级 特性 、 运 维 监 控 和 性 能 调 优等 ， 并 结合 生产 系统 的 性 能 优化 和 运 维 经 验 进行 讲解 ， 旨 在 提升 读者 的 实际 操作 经 验 。 


实战 ， 第 三 部 分 侧重 运 维 ， 请 读者 自行 选择 阅读 。 但 是 ， 如 果 你 是 一 


本 书 第 2、3 章 由 孟 赛 书写 ， 第 4 章 由 李 立 松 书写 ， 其 他 章 由 


误 发 布 在 站 点 页 面 http://www.adintellig.com/hbase-in-actiomy/ 
发 送 邮件 至 邮箱 binma85@gmailcom， 期 待 能 够 得 到 你 们 的 真挚 
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马 延 之 书 写 。 由 于 作者 的 水 平 有 限 ， 编 写 时 间 仓促 ， 书 中 难免 会 出 现 一 些 错误 或 者 不 准确 的 地 方 ， 忧 请 读者 批评 指正 。 读 者 可 以 将 书 中 的 错 


二 意 的 解答 。 如 果 你 


更 多 的 宝贵 意见 ， 也 欢迎 


感谢 Apache 基 金 会 以 及 所 有 对 开源 软件 和 开源 社区 作出 贡献 的 朋友 。 感 谢 一 直 以 来 帮助 过 我 们 的 数 盟 社区 和 EasyHadoop 社 区 ， 他 们 提供 的 平台 让 我 们 认识 了 很 多 圈子 里 的 同行 ， 交 流 中 技术 和 思想 的 
碰撞 让 我 们 受益 菲 浅 。 


感谢 查 礼 老师 百 忙 之 中 抽出 时 间 为 本 书写 推荐 。 


感谢 对 我 们 有 过 帮助 的 Ted Yu, MAI ER. Am XE Mæ A BRA BS, KBX, GA S, REA 


感谢 机 械 工业 出 版 社 华章 公司 的 编辑 杨 福 川 、 姜 影 和 白 宇 ， 在 这 一 年 多 的 时 间 中 始终 支持 我 们 的 写作 ， 他 们 的 鼓励 和 帮助 引导 着 我 们 顺利 完成 本 书 。 


最 后 感 澳 我 们 的 和 爸爸、 妈妈、 爷爷、 奶奶 ， 感 澳 他 们 的 养育 之 恩 ， 并 时 时 刻 刻 为 我 们 灌输 着 信心 和 力量 ! 


谨 以 此 书 献 给 我 们 最 亲爱 的 家 人 ， 以 及 众多 热爱 HBase 的 朋友 们 ! 


马 延 逻 于 中 国 北京 


第 一 部 分 “基础 篇 
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第 1 章 ”认识 HBase 


本 章 将 介绍 大 数据 背景 和 HBase 的 基本 概念 ， 从 大 数据 引申 到 NoSQL， 并 阐述 HBase 出 现 的 契机 。 随 后 ， 将 介绍 HBase 的 概念 、 发 展 历史 、 发 行 版 本 和 基本 特性 。 其 中 ，HBase 的 核心 功能 模块 将 作为 
一 个 小 节 单独 重点 介绍 ， 最 后 通过 介绍 HBase 的 使 用 场景 和 经 典 案例 ， 让 读者 朋友 能 够 清晰 地 了 解 HBase 可 以 做 什么 。 


作为 NoSQL 家 庭 的 一 员 ，HBase 的 出 现 弥 补 了 Hadoop 只 能 离线 批 处 理 的 不 足 ， 同 时 能 够 存储 小 文件 ， 提 供 海量 数据 的 随机 检索 ， 并 保证 一 定 的 性 能 。 而 这 些 特性 也 完善 了 整个 Hadoop 生 态 系统 ， 泛 
化 其 大 数据 的 处 理 能 力 ， 结 合 其 高 性 能 、 稳 定 、 扩 展 性 好 的 特 行 ， 给 使 用 大 数据 的 企业 带 来 了 福音 。 


因为 本 章 是 全 书 的 开篇 ， 唯 有 简明 扼要 地 介绍 才能 帮助 正在 学 习 和 想 要 学 习 HBase 的 读者 ， 所 以 本 章 将 提纲 所 领地 介绍 HBase 的 相关 知识 ， 重 点 介绍 HBase 是 什么 以 及 HBase 能 做 什么 两 部 分 。 


11 理解 大 数据 背景 


经 美国 权威 机 构 1DC 调 查 发 现 ， 现 如 今 的 公司 正在 以 前 所 未 有 的 速度 和 丰富 的 类 型 产生 数据 ， 并 且 也 有 能 力 存储 这 些 数据 ， 但 是 ， 如 何 关联 这 两 方面 以 便 产 生 最 大 的 商业 价值 ， 是 所 有 公司 共同 面临 的 


挑战 。 这 个 问题 非常 复杂 : 虽然 业务 人 员 在 技能 提升 和 专业 工具 的 帮助 下 ， 越 来 越 了 解数 据 ， 但 由 于 数据 的 增长 速度 越 来 越 快 ， 积 累 量 级 越 来 越 大 ， 公 司 可 以 利用 的 数据 比例 正在 迅速 下 降 。 


111 什么 是 大 数据 


Gartner 认 为 与 过 去 相关 概念 相 比 ， 大 数据 强调 3V 特 征 ， 即 Volume ( 量 级 ) 、Varity (种 类 ) 和 Velocity (速度 ) ， 如 图 1-1 所 示 。 


图 1-1 大 数据 三 大 特性 


如 今 存 储 的 数据 量 正在 急剧 增长 ，2000 年 全 球 存储 了 EB 级 别 的 数据 ， 预 计 到 2020 年 ， 该 值 将 变 为 ZB 级 别 。 仅 Twitter 每 天 就 会 生成 超过 10TB 的 数据 ，Facebook 的 数据 为 几 十 TB， 一 些 特殊 的 企业 在 每 
小 时 就 会 产生 TB 级 别 的 数据 。 


上 面 这 些 企业 是 一 些 典 型 的 案例 ， 其 实 我 们 生活 的 方方面面 都 会 形成 很 多 “轨迹 ”。 例 如 ， 打 开 手 机 会 生成 一 个 事件 ;乘坐 公共 交通 刷卡 ， 这 是 一 个 事件 ; 检票 登 机 、 打 卡 上 班 、App Store 上 购买 应 
用 、 更 换 电 视频 道 、 使 用 高 速 路 电子 收费 系统 等 。 每 一 项 操作 都 会 生成 数据 ， 并 且 该 数据 的 量 级 与 参与 的 人 数 相关 ， 全 球 60 亿 人口， 如 果 仅仅 1/10 的 人 参与 进来 ， 那 么 这 个 数据 量 级 就 已 经 非常 惊人 。 就 在 
10 年 前 上 T 界 超过 1TB 的 数据 仓库 屈指 可 数 ， 而 现在 则 是 “ 举 不 胜 举 ”。 


随 着 传感器 、 智 能 设备 以 及 社交 协作 技术 的 激增 ， 企 业 中 的 数据 也 变 得 更 加 复杂 ， 因 为 它 不 仅 包 含 传统 的 关系 型 数据 ， 还 包含 来 自 网 页 、Web 日 志文 件 、 社 交 媒 体 论坛 、 电 子 邮 件 、 文 档 、 传 感 器 数据 
等 原始 、 半 结构 化 和 非 结 构 化 数据 。 


传统 系统 可 能 很 难 存储 、 分 析 这 些 数据 的 内 容 ， 更 不 要 说 挖掘 有 价值 的 信息 。 因 为 传统 的 数据 库 、 数 据 仓库 、 联 机 事务 处 理 等 技术 并 不 适合 处 理 这 些 数 据 。 尽 管 一 些 公司 正在 朝 大 数据 方向 大 力 发 展 ， 
但 总 体 而 言 ， 大 部 分 公司 只 是 刚 开始 理解 大 数据 。 当 回首 整个 数据 库 发 展 的 历程 会 发 现 ， 人 们 将 大 部 分 时 间 都 花 在 仅 20% 的 数据 上 : 这 些 数 据 格式 整齐 且 符合 严格 模式 的 关系 类 型 。 但 事实 是 ， 全 球 80% 的 
数据 是 非 结构 化 的 或 者 半 结 构 化 的 。 


视频 和 图 片 不 能 轻松 或 高 效 地 存储 在 关系 型 数据 库 中 ， 某 些 事件 信息 可 能 动态 地 更 改 (如 气象 ) ， 它 们 不 太 适 合 严格 的 模式 。 要 利用 大 数据 ， 企 业 必 须 能 够 分 析 所 有 类 型 的 数据 ， 包 括 关系 和 非 关系 数 
据 : 文本 、 传 感 器 数据 、 音 频 和 视频 等 。 


有 效 处 理 大 数据 需要 在 数据 变化 的 过 程 中 对 它 的 数量 和 种 类 进行 分 析 ， 而 不 只 是 在 “静止 ”状态 进行 分 析 。 业 界定 义 这 种 情况 为 从 单纯 批量 计算 模式 到 实时 动态 计算 模式 的 内 涵 式 转变 。 内 涵 式 在 这 里 
也 比较 容易 理解 ， 即 结构 优化 、 质 量 提高 ， 是 一 种 实现 实质 性 的 跨越 式 的 进程 。 大 数据 平台 允许 用 户 将 所 有 数据 存储 为 其 原生 的 业务 对 象 格式 ， 通 过 可 用 组 件 上 的 大 规模 并 行 计算 实现 价值 ， 不 仅仅 是 批量 
处 理 和 离线 分 析 ， 同 时 支持 实时 查询 和 处 理 等 特征 ， 甚 至 要 求 响应 时 间 在 毫秒 级 别 ， 并 且 可 承受 大 规模 的 并 发 访问 ， 这 些 都 是 “速度 ”特征 的 范畴 。 
1.1.2 ”为 何 大 数据 至 关 重 要 

这 种 非 传统 分 析 是 否 适 合 企业 的 业务 需求 ” 换 名 话说 就 是 能 否 找到 一 个 大 数据 平台 可 为 当前 的 分 析 工 具 提供 补充 实现 ， 并 且 兼 容 现 有 解决 方案 ， 以 实现 更 好 的 业务 成 果 。 


通常 情况 下 ， 数 据 必须 经 过 清理 才能 规范 地 存放 到 数据 仓库 中 。 相 反 大 数据 解决 方案 不 仅 会 利用 不 适合 传统 仓库 目 数量 庞大 的 数据 ， 而 且 不 需要 改变 原 有 数据 格式 ， 保 留 了 数据 的 真实 性 ， 并 能 够 快速 
访问 海量 的 信息 。 对 于 不 能 使 用 传统 关系 型 数据 库 方 法 处 理 的 信息 所 带 来 的 挑战 ， 大 数据 解决 方案 非常 适合 。 大 数据 之 所 以 重要 ， 是 因为 其 具备 解决 现实 问题 的 三 个 关键 方面 。 


o 分 析 各 种 不 同 来 源 的 结构 化 、 结 构 化 和 非 结构 化 数据 的 理想 选择 。 


. 当 需 要 分 析 所 有 或 大 部 分 数据 ， 或 者 对 一 个 数据 抽样 分 析 效 果 不 明 显 时 ， 大 数据 解决 方案 是 理想 的 选择 。 


模式 ， 也 通常 会 避免 使 


“ 未 预先 确定 数据 的 业务 度量 指标 时 ， 是 进行 迭代 式 和 探索 式 分 析 的 理想 选择 。 


NoSQL, 是 Not on 


1.1.3 ”NoSQL 在 大 数据 中 扮演 的 角色 


y SQL 的 缩写 ， 泛 指 非 关系 型 
SQL 的 JOIN 操作 ， 一 般 又 都 


1. 传 统 关 系 型 数据 库 的 缺陷 


随 着 互联 网 Web 2.0 


的 数据 库 。 与 关系 型 数据 库 相 比 ，NoSQL 存 在 许多 显著 的 不 同 点 ， 其 中 最 重要 的 是 NoSQL 不 使 


的 兴起 ， 传 统 的 关系 数 


(1) 高 并 发 读 写 的 瓶颈 


Web 2.0 网 站 要 根 


(2 


可 扩展 性 的 限制 


在 基于 Web 的 架构 中 ， 数 据 库 是 最 难以 进行 横向 扩 
性 能 和 负载 能 力 。 对 于 很 多 需要 提供 24 小 时 不 间断 服务 的 网 站 来 说 ， 对 数据 库 系统 进行 升级 和 扩 


(3 


事务 一 致 性 的 负面 影响 


民用 户 个 性 化 信息 来 实时 生成 动态 页 面 和 提供 动态 信息 ， 所 以 基本 上 无 法 使 用 静态 化 技术 ， 因 
万 次 SQL 查询 还 勉强 顶 得 住 ， 但 是 应 付 上 万 次 SQL 写 数 
子 的 点 击 次 数 ， 投 票 计数 等 ， 这 是 一 个 相当 普遍 的 业务 需求 。 


备 水 平 可 扩 


居 库 在 应 付 Web 2.0 网 站 ， 特 别 是 超大 规模 和 高 并 发 的 SNS 类 型 动态 


居 请 求 ， 硬 盘 1/O 却 无 法 承受 。 


展 的 特性 。NoSQL 的 实现 具有 两 个 特征 : 使 有 


硬盘 和 把 随机 存储 器 作 存 储 载体 。 


SQL 作为 查询 语言 。 其 数据 存储 可 以 不 需要 固定 的 表 


网 站 时 已 经 力不从心 ， 暴 露 了 很 多 难以 克服 的 问题 。 


此 数 
实 对 于 普通 的 BBS 网 站 ， 往 往 也 存在 相对 高 并 发 写 请 求 的 需求 ， 


事务 执行 的 结果 必须 是 使 数 


的 修改 上 ， 以 便 维护 所 有 数 
了 高 负载 下 的 一 个 沉 本 


(4) 复杂 SQL 查询 


任何 大 数据 量 的 Web 系 统 都 非常 尽 计 


负担 。 


的 弱化 


和 表 的 主键 查询 ， 以 及 


表 的 简 


2.NoSQ 


(1) 扩展 性 强 


NoSQL 数 据 库 种 类 繁多 ， 但 是 一 个 共同 的 特点 就 是 去 掉 关 系 型 数据 库 的 关系 特性 ， 若 数据 之 间 是 弱 关 系 ， 则 非常 容易 扩 
支撑 数据 从 TB 到 PB 级 别 的 过 渡 。 


(2) 并 发 性 能 


[数据 库 的 优势 


届 的 完整 性 ， 这 随 之 而 来 的 是 性 能 的 大 幅度 下 降 。 


RAI, > 


ANI 


系统 的 上 


户 量 和 访问 


上 
zi 


展 是 非常 痛苦 的 村 


情 ， 往 往 需 要 停机 维护 和 数据 迁移 ， 


届 库 从 一 个 一 致 性 状态 变 到 另 一 个 一 致 性 状态 。 保 证 数据 库 一 致 性 是 指 当 事 务 完 成 时 ， 必 须 使 所 有 数据 都 具有 一 致 的 状态 。 在 关系 型 数据 库 中 ， 所 有 的 规则 必须 应 
的 要 求 很 低 ， 有 些 场合 对 写 一 致 性 要 求 也 不 高 。 


很 多 Web 系 统 并 不 需要 严格 的 数据 库 事务 ， 对 读 一 致 性 


NoSQL 数 据 库 


(3) 数据 模型 灵活 


有 非常 良好 的 读 写 性 能 ， 


万 


在 大 数据 量 下 ， 同 样 表现 优秀 。 这 得 益 于 它 的 弱 关 系 性 ， 数 据 库 的 结构 简单 。 一 般 MySQL 使 


效 ， 这 是 一 种 大 粒度 的 Cache， 在 针对 Web 2.0 的 交互 中 频繁 应 


NoSQL 无 须 寻 


先 为 要 存储 的 数据 建立 字段 ， 随 时 可 以 存储 自 定义 的 数据 格式 。 而 在 关系 型 数据 库 中 ， 增 删 字段 是 一 件 非常 麻烦 的 寺 


许 使 


的 数据 ， 但 是 一 般 的 应 


HBase 作 为 NoSQL 数 据 库 的 一 种 ， 当 然 也 


者 随时 随地 添加 字段 ， 并 且 字 段 类 型 可 以 是 任意 格式 。 


备 上 


H 


1.2 HBase 是 什么 


HBase (Hadoop Database) 是 一 个 高 可 靠 、 高 性 能 、 面 向 列 、 可 伸缩 
GFS 的 HDFS 作 为 底层 文件 存储 系统 ， 在 其 上 可 以 运行 MapReduce 批 量 处 理 数 据 ， 使 有 


系统 并 不 适合 批量 模式 访问 ， 更 多 的 还 是 
求 。 当 然 ，HBase 还 有 不 少 新 特性 ， 其 中 不 乏 有 趣 的 特 | 


提 到 的 种 种 优势 。 使 


居 库 并 发 负载 非常 高 ， 可 能 峰值 会 达到 每 秒 上 万 次 读 写 请 求 。 关 系 型 数 


俱 增 时 ， 数 据 库 系 统 却 无 法 像 Web Server 和 App Server 那 样 简单 地 通过 添加 更 多 的 硬件 和 服务 节点 来 扩展 


展 。 例 如 ，HBase、Cassandra 等 系统 的 水 平 扩 


RB. 对 于 数据 量 非常 大 的 表 ,， 增 力 


EN E 
PRS, DRATI 


例如 ， 人 人 网 的 实时 统计 在 线 


而 不 能 通过 横向 添加 节点 的 方式 实现 无 颖 扩 


因 


此 数据 库 寻 


EER 


BLAAR, RERET, ESNS, AERAR m AREE T ETE. SRÉSBUIBURUCEGERUS 
条 件 分 页 查询 ，SQL 的 功能 被 极 大 地 弱化 了 ， 所 以 这 部 分 功能 不 能 得 到 充分 发 挥 。 


展 性 能 非常 优越 ， 非 常 容易 实现 


Query Cache， 每 当 表 发 生 更 新 操作 时 ，Cache 就 会 失 
，Cache 性 能 并 不 高 。 而 NoSQL 的 Cache 是 记录 级 的 ， 是 一 种 细 粒 度 的 Cache， 所 以 NoSQL 在 这 个 


层面 上 来 说 性 能 要 高 很 多 。 


H 


FREIAME ES, NoSQL 


过 Hadoop 的 读者 知道 ，Hadoop 最 适合 的 应 用 场景 是 离线 批量 处 理 数 


户 的 随机 


HBase 的 整个 项 目 使 


Java 语 言 实现 ， 它 是 Apache 


讲解 HBase 的 发 


12:1 


HBase 还 是 一 种 非 关 系 型 数据 库 ， 即 NoSQL 数 据 库 。 在 Eric Brewer 的 CAP 理 论 中 ，HBase 
展 历史 、 发 行 版 本 和 特性 。 


到 了 业界 的 普遍 认可 ， 并 经 过 了 工业 上 的 验证 ， 所 以 HBase. 


HBase 的 发 展 历史 


金 会 的 Hadoop 项 


的 分 布 式 数据 库 ， 利 | 


ZooKeeper 作 为 协同 服务 组 件 。 


备 “ 站 在 巨人 


户 膀 之 上 ”的 优势 ， 其 发 展 势头 非常 迅猛 。 


z 


HBase 技 术 可 在 廉价 PC 上 搭建 起 大 规模 结构 化 存储 集群 。HBase 参 考 Google 的 BigTable 建 模 ， 使 有 


属于 CP 类 型 的 系统 ， 其 NoSQL 的 特性 非常 明显 ， 这 些 特性 也 决定 了 其 独特 的 应 


其 离线 分 析 的 效率 非常 高 ， 能 在 分 钟 级 别处 理 TB 级 


访问 ， 就 类 似 访问 关系 型 数据 库 中 的 某 条 记录 一 样 。HBase 的 列 式 存储 的 特性 支撑 它 实时 随机 读 取 、 基 于 KEY 的 特殊 访问 需 
性 ， 在 接 下 来 的 内 容 中 将 会 详细 介绍 。 


类 似 


目的 一 部 分 ， 既 是 模仿 Google BigTable 的 开源 产品 ， 同 时 又 是 Hadoop 的 衍生 产品 。 而 Hadoop 作 为 批量 离线 计算 系统 已 经 得 


场景 。 接 下 来 的 内 容 将 详细 


Apache HBase 最 初 是 Powerset 公 司 为 了 处 理 
RIIE REA. EUH 


2006 年 11 月 ，Google 开 放 了 论文 “Bigtable: A Distributed Storage System for Structured Data" 
底层 数据 存储 结构 设计 等 内 容 站 


型 包含 HBase 的 基本 介绍 、 


经 过 一 段 时 间 的 酝酿 和 


EARME. 


表 设 计 、 行 键 设计 和 


然 语言 搜索 产生 的 海量 数据 而 开 


展 的 项 目 ， 由 Chad Walters 和 Jim Kellerman 两 人 发 起 ， 经 过 两 和 


的 发 


展 之 后 被 Apache 基 金 会 收录 为 顶级 项 


目 ， 同 时 


， 该 论文 就 是 HBase 的 原型 。2007 


开发 工作 ， 在 2007 


月 ，Hadoop 升 级 为 顶级 项 


FE10 月 第 一 个 可 | 


，HBase 作 为 Hadoop 的 一 个 子 项 目 存在 ，HBase 的 活跃 度 非常 高 ， 在 短 短 不 到 2 年 的 时 间 经 历 了 N 多 个 版 本 的 发 布 ， 并 且 : 


的 、 简 单 的 HBase 版 本 发 布 ， 该 版 本 只 实现 了 最 基本 的 模块 和 功能 ， 因 


为 只 是 初始 开发 阶段 ， 此 时 的 HBase 版 本 发 


F2 月 ， 倡 导 者 提出 作为 Hadoop 的 模块 的 HBase 原 型 ， 该 原 


展 很 不 完善 。2008 年 1 


中 包含 了 版 本 号 的 大 “跳跃 ”。 下 面 是 一 些 版 本 发 


布 的 信息 : 


.hbase-0.18.0 于 2008 年 9 月 21 日 发 布 


* hbase-0.20.6 于 2010 年 7 月 10 日 发 布 


* hbase-0.89.20100621 于 2010 年 6 月 25 日 发 布 


主 版 本 ,例如 ，hbase 0.X.* 版 本 都 会 伴随 着 Hadoop 0.X.* 版 本 ， 之 所 以 出 现 版 本 跳跃 ， 官 方 给 出 的 解释 有 两 点 。 


其 中 ， 从 hbase-0.20.6 到 hbase-0.89.20100621 版 本 ， 经 历 了 版 本 的 大 “跳跃 ”。 在 2009 年 秋季 发 布 0.20 系 列 版 本 后 ，HBase 经 历 了 发 展 历史 上 的 一 次 版 本 大 变动 ， 在 此 之 前 的 版 本 都 追随 Hadoop 的 


* Hadoop 的 版 本 更 新 已 经 放 缓 ， 而 HBase 相 比 Hadoop 开 发 来 讲 更 加 活跃 ， 发 布 版 本 更 加 频繁 ， 并 且 Hadoop 已 经 有 多 个 分 支 ，HBase 也 需要 兼容 多 个 分 支 ， 所 以 不 再 需要 与 Hadoop 的 版 本 更 新 步伐 保持 一 


: 从 HBase 的 功能 实现 上 来 讲 ， 已 经 基本 实现 BigTable 论 文中 实现 的 功能 ， 也 就 是 HBase 的 实现 已 经 接近 “1.0”， 应 该 赋予 一 个 更 接近 “1.0” 的 版 本 。 


“跳跃 ”之 后 的 版 本 发 布 比 较 规律 ， 先 后 经 历 了 0.90.*、0.92.*、0.94.*、0.96.*、0.98.* 五 个 大 的 版 本 ， 现 在 稳定 版 本 是 0.94.*。 


1.22 ”HBase 的 发 行 版 本 


本 节 主 要 介绍 现 有 HBase 的 版 本 知识 ， 从 0.90.0 之 后 ，HBase 的 版 本 更 新 是 非常 有 规律 的 ， 可 以 从 0.90.0、0.91.0、0.92.0、0.93.0、0.94.0、0.95.0、0.96.0、0.97.0、0.98.0 这 样 的 版 本 变化 中 发 现 一 些 


规律 。 


这 些 版 本 都 是 大 版 本 ， 其 中 偶数 版 本 是 稳定 发 布 版 ， 而 奇数 版 本 都 是 开发 版 ， 基 本 不 对 外 发 布 ， 但 是 可 以 在 官方 上 IRA 的 项 目 管理 系统 中 找到 这 些 奇 数 版 本 对 应 的 开发 信息 ， 并 且 可 以 在 SVN 上 找到 相关 


的 最 新 开发 代码 。 所 以 ， 偶 数 发 布 版 本 属于 稳定 版 本 ， 奇 数 开发 版 本 属于 不 稳定 版 本 ， 一 般 不 建议 用 户 在 生产 环境 中 使 用 开发 版 本 ， 这 些 也 是 大 版 本 的 发 布 规律 。 


小 版 本 一 般 基 于 当前 大 版 本 的 问题 进行 修正 ， 一 般 表 示 小 版 本 的 数字 在 1~ 100 之 间 ， 例 如 : 0.94.1、0.94.2、0.94.3、0.94.4。 这 些小 版 本 都 是 基于 0.94 大 版 本 的 ， 截 止 到 本 书 撰写 时 ， 最 新 版 本 是 


0.94.18。 小 版 本 都 是 从 小 到 大 依次 递增 ， 不 存在 版 本 跳跃 的 情况 。 对 于 小 版 本 而 言 ， 原 则 上 数值 越 大 越 稳定 ， 因 为 小 版 本 都 是 基于 某 一 个 大 版 本 的 ， 在 小 版 本 中 并 不 会 增加 新 特征 ， 而 是 修正 一 些 代码 的 


洞 和 问题 。 


an 


截止 到 本 书 完稿 时 ，HBase 官 方 给 出 的 最 新 版 本 信息 如 下 面 的 代码 所 示 。 从 中 可 以 看 出 ， 发 布 版 本 存在 0.94、0.96、0.98 三 个 大 版 本 。 其 中 stable 文 件 夹 包含 了 最 新 的 稳定 发 布 版 本 ; to removes 
经 移 除 的 版 本 ; HEADER.htmlI 文 件 用 于 对 代码 发 行 版 进行 说 明 ， 即 下 面 代 码 中 的 前 半 部 分 ， 从 “HBase Releaseshttp://www.hzcourse.com/resource/readBook? 


path=/openresources/teach_ebook/uncompressed/14884/OEBPS/Text/…” 开 始 ， 一 直到 “fresh'” 结 束 的 解释 说 明 。 每 部 分 后 面 都 有 对 应 的 发 布 时 间 ， 可 以 通过 该 时 间 判 断 版 本 发 布 的 间隔 和 项 


的 活跃 程度 。 


HBase Releases 
Please make sure you're downloading from a nearby mirror site, not from www.apache.org. 
We suggest downloading the current stable release. 
The 0.96.x series supercedes 0.94.x. We are leaving the 'stable' pointer on the 
latest 0.94.x for now while 0.96 is still 'fresh'. 
File Name File Size Date 


hbase-0.94.17/ ^ 26-Feb-2014 01: 31 
hbase-0.94.18/ ^ 24-Mar-2014 19: 10 
hbase-0.96.2/ = 03-Apr-2014 23: 18 
hbase-0.98.0/ = 07-Feb-2014 01: 26 
stable/ = 24-Mar-2014 19: 10 
to_remove/ = 07-Apr-2013 20: 38 
HEADER.html 429 19-Oct-2013 15: 49 


stable 文 件 夹 中 存放 的 是 最 新 的 稳定 发 布 版 本 ， 从 下 面 的 代码 中 可 以 看 到 最 新 的 稳定 版 本 信息 ， 其 中 发 布 版 本 包含 文件 名 字 、 文 件 大 小 和 发 布 日 期 等 参数 。 在 下 面 两 个 版 本 中 ， 带 有 security 后 缀 的 版 本 
可 以 使 用 安全 认证 和 权限 控制 ， 基 于 Kerberos 协 议 结构 ;另外 一 个 版 本 是 常规 版 本 ， 一 般 搭建 不 需要 用 户 权限 控制 的 集群 可 以 使 用 这 个 版 本 ， 权 限 控制 部 分 可 以 交 由 中 间 业 务 逻 辑 层 控 制 。 


File Name File Size Date 
hbase-0.94.18-security.tar.gz 59108691 24-Mar-2014 19: 10 
hbase-0.94.18.tar.gz 58691770 24-Mar-2014 19: 10 


HBase 版 本 从 0.94.0 到 0.96.0， 变 化 比较 大 ， 由 于 Hadoop 2.0 发 布 ，HDFS 已 经 发 生变 化 ， 为 了 适应 Hadoop 2.0 的 架构 改变 ，HBase 提 供 一 个 基于 Hadoop 2.0 的 独立 版 本 ， 该 版 本 只 支持 Hadoop 
2.0。 同 时 ， 基 于 Hadoop 1.* 版 本 的 HBase 继 续 存在 ， 并 且 将 长 期 存在 ， 两 个 版 本 之 间 并 不 兼容 ， 所 以 在 发 布 、 下 载 界面 会 看 到 两 种 版 本 的 HBase 同 时 存在 ， 如 下 所 示 : 


Name Last modified Size Description 
hbase-0.96.1.1-hadoopl-bin.tar.gz 20-Dec-2013 03: 50 70M 
hbase-0.96.1.1-hadoopl-bin.tar.gz.mds 20-Dec-2013 03: 50 1.3K 
hbase-0.96.1.1-hadoop2-bin.tar.gz 20-Dec-2013 03: 50 86M 
hbase-0.96.1.1-hadoop2-bin.tar.gz.mds 20-Dec-2013 03: 50 1.3K 
hbase-0.96.1.1-src.tar.gz 20-Dec-2013 03: 50 4.9M 
hbase-0.96.1.1-src.tar.gz.mds 20-Dec-2013 03: 50 1.1K 


由 于 在 写作 本 书 时 ，HBase 的 0.96 版 本 分 支 上 只 有 0.96.1.1 版 本 ， 所 以 这 里 使 用 该 版 本 作为 示例 ， 该 示例 中 包含 hadoop 1, hadoop 2 和 源码 三 个 部 分 ， 也 是 从 0.96 版 本 开始 ，HBase 将 保持 两 个 版 本 并 


存 的 状态 ， 这 种 状态 将 会 在 很 长 一 段 时 间 内 持续 存在 。 


这 里 不 建议 使 用 非 稳定 版 本 ， 即 0.96 及 以 上 的 版 本 ， 因 为 很 多 的 新 功能 并 没有 经 过 工业 界 的 验证 。 如 果 必 须 使 用 支持 Hadoop 2.0 的 版 本 ， 建 议 使 用 0.96 这 个 分 支 ， 因 为 这 个 分 支 已 经 迭代 过 不 少 小 版 
本 ， 相 对 稳定 。 另 外 ,一直 致力 于 Hadoop 技 术 研 发 和 推广 、HBase 核 心 贡献 者 、Hortonworks 高 级 技术 成 员 一 一 Ted Yu 对 该 版 本 的 新 功能 、 特 性 非常 推崇 ， 有 些 时 候 还 是 需要 相信 权威 。 


这 里 需要 特别 声明 一 下 ， 本 书 的 知识 点 讲解 、 安 装 部 署 、 实 战 案例 和 性 能 调 优等 都 是 基于 HBase 0.94 版 本 的 ， 该 版 本 是 写作 本 书 时 的 最 新 稳定 版 。 


1.2.3 ”HBase 的 特性 


HBase 作 为 一 个 典型 的 NoSQL 数 据 库 ， 可 以 通过 行 键 (Rowkey) 检索 数据 ， 仅 支持 单行 事务 ， 主 要 用 于 存储 非 结 构 化 和 半 结 构 化 的 松散 数据 。 与 Hadoop 相 同 ，HBase 设 计 目标 主要 依靠 横向 扩展 


通过 不 断 增 加 廉价 的 商用 服务 器 来 增加 计算 和 存储 能 力 。 


“典型 ”代表 着 HBase 有 不 少 特性 ， 这 些 特性 都 标志 着 HBase 的 特 立 独行 、 与 众 不 同 ， 同 时 其 


良好 的 出 身 和 特性 也 葛 定 了 其 在 大 数 


1. 容 量 巨 大 


居 处 理 领 域 的 地 位 。 下 面 介绍 HBase 具 备 的 一 些 非常 显著 的 特点 。 


HBase 的 单 表 可 以 有 百 亿 行 、 百 万 列 ， 数 据 矩 阵 横向 和 纵向 两 个 维度 所 支持 的 数据 量 级 都 非常 具有 弹性 。 传 统 的 关系 型 数据 库 ， 如 Oracle 和 MySQL 等 ， 如 果 数据 记录 在 亿 级 别 ， 查 询 和 写 入 的 性 能 都 会 


是 指数 级 下 降 ， 所 以 更 大 的 数据 量 级 对 传统 数据 库 来 讲 是 一 种 灾难 。 而 HBase 对 于 存储 百 亿 、 干 亿 甚 至 更 多 的 数据 都 不 存在 任何 问题 。 对 于 高 维 数据 ， 百 万 量 级 的 列 没有 任何 问题 。 有 的 读者 可 能 关心 更 加 


多 的 列 : 干 万 和 亿 级 别 ， 这 种 非常 特殊 的 应 用 场景 ， 并 不 是 说 HBase 不 支持 ， 而 是 这 种 情况 下 访问 单个 Rowkey 可 能 造成 访问 超时 ， 如 果 限 定 某 个 列 则 不 会 出 现 这 种 问题 。 


2. 面 向 列 


HBase 是 面向 列 的 存储 和 权限 控制 ， 并 支持 列 独立 检索 。 有 些 读者 可 能 不 清楚 什么 是 列 式 存储 ， 下 面 进行 简单 介绍 。 列 式 存储 不 同 于 传统 的 关系 型 数据 库 ， 其 数据 在 表 中 是 按 某 列 存储 的 ， 这 样 在 查询 
只 需要 少数 几 个 字段 的 时 候 ， 能 大 大 减少 读 取 的 数据 量 ， 比 如 一 个 字段 的 数据 聚集 存储 ， 那 就 更 容易 为 这 种 聚集 存储 设计 更 好 的 压缩 和 解压 算法 。 下 面 是 传统 行 式 数据 库 与 列 式 数据 库 的 不 同 特性 。 


传统 行 式 数据 库 的 特性 如 下 : 


“ 数据 是 按 行 存储 的 。 


: 没有 索引 的 查询 使 用 大 量 I/O。 


“ 建立 索引 和 物化 视图 需要 花费 大 量 的 时 间 和 资源 。 


“ 面 对 查 询 需 求 ， 数 据 库 必须 被 大 量 膨胀 才能 满足 需求 。 


列 式 数据 库 的 特性 如 下 : 
“ 数据 按 列 存储 ， 即 每 一 列 单独 存放 。 

E 数据 即 索引 。 

“ 只 访问 查询 涉及 的 列 ， 可 以 大 量 降低 系统 L/O。 

“ 每 一 列 由 一 个 线索 来 处 理 ， 即 查询 的 并 发 处 理性 能 高 。 


“ 数据 类 型 一 致 ， 数 据 特征 相似 ， 可 以 高 效 压缩 。 


列 式 存储 不 但 解决 了 数据 稀 琉 性 问题 ， 最 大 程度 上 节省 存储 开销 ， 而 且 在 查询 发 生 时 ， 仅 检索 查询 涉及 的 列 ， 能 够 大 量 降低 磁盘 |/O。 这 些 特 性 也 支撑 HBase 能 够 保证 一 定 的 读 写 性 能 。 


3. 稀 踊 性 


在 大 多 数 情况 下 ， 采 用 传统 行 式 存储 的 数据 往往 是 稀疏 的 ， 即 存在 大 量 为 空 (NULL) 的 列 ， 而 这 些 列 都 是 占用 存储 空间 的 ， 这 就 造成 存储 空间 的 浪费 。 对 于 HBase 来 讲 ， 为 空 的 列 并 不 占用 存储 空间 ， 
因此 ， 表 可 以 设计 得 非常 稀疏 。 


4 扩展 性 


HBase 底 层 文 件 存储 依赖 HDFS， 从 “基因 ”上 决定 了 其 具备 可 扩展 性 。 这 种 遗传 的 可 扩展 性 就 如 同 OOP 中 的 继承 ，“ 父 类 ”HDFs 的 扩展 性 遗传 到 HBase 框 架 中 。 这 是 最 底层 的 关键 点 。 同 时 ，HBase 


的 Region 和 RegionServer 的 概念 对 应 的 数据 可 以 分 区 ， 分 区 后 数据 可 以 位 于 不 同 的 机 器 上 ， 所 以 在 HBase 核 心 架构 层面 也 具备 可 扩展 性 。HBase 的 扩展 性 是 热 扩展 ， 在 不 停止 现 有 服务 的 前 提 下 ， 可 以 随时 
添加 或 者 减少 节点 。 
5. 高 可 靠 性 


HBase 提 供 WAL 和 Replication 机 制 。 前 者 保证 了 数据 写 入 时 不 会 因 集群 异常 而 导致 写 入 数据 的 丢失 ; 后 者 保证 了 在 集群 出 现 严 重 问题 时 ， 数 据 不 会 发 生 丢 失 或 者 损坏 。 而 且 HBase 底 层 使 用 
HDFS，HDFS 本 身 的 副本 机 制 很 大 程度 上 保证 了 HBase 的 高 可 靠 性 。 同 时 ， 协 调 服务 的 ZooKeeper 组 件 是 经 过 工业 验证 的 ， 具 备 高 可 用 性 和 高 可 靠 性 。 


oj 


ID 


6 .高 性 能 


底层 的 LSM 数 据 结 构 和 Rowkey 有 序 排列 等 架构 上 的 独特 设计 ， 使 得 HBase 具 备 非常 高 的 写 入 性 能 。Region 切 分 、 主 键 索引 和 缓存 机 制 使 得 HBase 在 海量 数据 下 具备 一 定 的 随机 读 取 性 能 ， 该 性 能 针对 
Rowkey 的 查询 能 够 达到 毫秒 级 别 。 同 时 ，HBase 对 于 高 并 发 的 场景 也 具备 很 好 的 适应 能 力 。 该 特性 也 是 业界 众多 公司 选取 HBase 作 为 存储 数据 库 非常 重要 的 一 点 


[1] 参见 https://cwiki.apache.org/confluence/display/ DIRxSBOX/HBase+Prototype。 


1.3 ”HBase 与 Hadoop 的 关系 


HBase 参 考 了 Google 的 BigTable 建 模 ， 且 将 下 面 三 篇 博文 作为 HBase 实 现 的 理论 基础 : 


- BigTable by Google (2006) 
- HBase and HDFS Locality by Lars George (2010) 


- No Relation: The Mixed Blessings of Non-Relational Databases by Ian Varley (2009) 


从 上 面 的 博文 列表 中 也 可 以 看 出 ，HBase 和 HDFS 有 着 非常 紧密 的 关系 ， 更 准确 的 说 法 是 : HBase 严 重 依赖 Hadoop 的 HDFS 组 件 ，HBase 使 用 HDFS 作 为 底层 存储 系统 。 因 此 ， 如 果 要 使 用 HBase， 前 提 
是 首先 必须 有 Hadoop 系 统 。 从 后 面 第 2 章 的 HBase 安 装 过 程 的 讲解 中 也 可 以 总 结 出 这 点 。Hadoop 的 组 件 之 一 MapReduce 可 以 直接 访问 HBase， 但 是 ， 这 不 是 必需 的 ， 因 为 HBase 中 最 重要 的 访问 方式 是 
原生 Java API， 而 不 是 MapReduce 这 样 的 批量 操作 方式 。 图 1-2 展 示 了 HBase 在 Hadoop 生 态 系统 中 的 位 置 。 
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官方 给 出 的 HBase 和 Hadoop 的 版 本 支持 矩阵 。 
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图 1-2 ”Hadoop 生 态 系 统 总 图 


因为 HBase 底 层 依赖 Hadoop， 所 以 选择 Hadoop 版 本 对 HBase 部 署 很 关键 。 表 1-1 显 示 了 不 同 HBase 发 行 版 本 所 支持 的 Hadoop 版 本 信息 。 基 于 HBase 版 本 ， 应 该 选择 合适 的 Hadoop 版 本 ， 表 1-1 中 是 


表 1-1 Hadoop 版 本 支持 矩阵 


Hadoop 版 本 HBase 0.92.x HBase 0.94.x HBase 0.96.x HBase 0.98.x 


Hadoop 0.20.205 
Hadoop 0.22.x 
Hadoop 1.0.0-1.0.2 
Hadoop 1.0.3 
Hadoop 1.1.x 
Hadoop 0.23.x 
Hadoop 2.0.x-alpha 
Hadoop 2.1.0-beta 
Hadoop 2.2.0 
Hadoop 2.x 


表 1-1 中 字母 的 含义 如 下 。 
“ S: 经 过 测试 的 、 支 持 的 。 
X: 不 支持 。 


NT: 可 以 运行 但 测试 不 充分 。 
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当然 ， 并 不 是 说 只 要 满足 表 1-1 中 的 版 本 匹配 就 万 事 大 吉 了 


， 在 考虑 版 本 匹配 的 同时 ， 也 需要 考虑 一 些 其 他 因素 ， 例 如 : 


“ 如 果 使 用 0.94.x 运 行 在 Hadoop 2.2.0 版 本 上 ， 需 要 重新 编译 0.94.x。 


“ 对 于 ZooKeeper 的 版 本 只 需要 跟 HBase 依 赖 库 中 的 ZooKeepet 保 持 一 致 即 可 。 


14 ”HBase 的 核心 功能 模块 


Hadoop 框 架 包含 两 个 核心 组 件 : HDFS 和 MapReduce， 其 中 HDFS 是 文件 存储 系统 ， 负 责 数据 存储 ; MapReduce 是 计算 框架 ， 负 责 数 据 计 算 。 它 们 之 间 分 工 明确 、 低 度 耦合 、 相 关 关 联 。 对 于 HBase 


数据 库 的 核心 组 件 ， 即 核心 功能 模块 共有 4 个 ， 它 们 分 别 是 : 客 


示 。 


户 端 Client、 协 调 服务 模块 ZooKeeper、 主 节点 HMaster 和 Region 节 点 RegionServer， 这 些 组 件 的 描述 和 相互 之 间 的 关联 关系 如 图 1-3 所 


HBase 
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图 1-3 HBase 架 构图 


143 客户 端 Client 


客户 端 Client 是 整个 HBase 系 统 的 入 口 。 使 用 者 直接 通过 客户 端 操作 HBase。 客 户 端 使 用 HBase 的 RPC 机 制 与 HMaster 和 RegionServer 进 行 通信 。 对 于 管理 类 操作 ，Client 与 HMaster 进 行 RPC 通 信 ; 对 
于 数据 读 写 类 操作 ，Client 与 RegionServer 进 行 RPC 交 互 。 这 里 客户 端 可 以 是 多 个 ， 并 不 限定 是 原生 Java 接 口 ， 还 有 Thrift、Avro、Rest 等 客户 端 模式 ， 甚 至 MapReduce 也 可 以 算 作 一 种 客户 端 。 


14.2 ”协调 服务 组 件 ZooKeeper 


ZooKeeper Quorum (队列 ) 负责 管理 HBase 中 多 HMaster 的 选举 、 服 务 器 之 间 状 态 同步 等 。 再 具体 一 些 就 是 ，HBase 中 ZooKeeper 实 例 负责 的 协调 工作 有 : 存储 HBase 元 数据 信息 、 实 时 监控 


143 主 节点 HMaster 


HMaster 没 有 单 点 问题 ， 在 HBase 中 可 以 启动 多 个 HMaster， 通 过 ZooKeeper 的 Master 选 举 机 制 保证 总 有 一 个 Master 正 常 运行 并 提供 服务 ， 其 他 HMaster 作 为 备 选 时 刻 准备 〈 当 目前 HMaster 出 现 问 
题 时 ) 提供 服务 。HMaster 主 要 负责 Table 和 Region 的 管理 工作 : 

“ 管理 用 户 对 Table 的 增 、 删 、 改 、 查 操作 。 

< 管理 RegionServet 的 负载 均衡 ， 调 整 Region 分 布 。 

“ 在 Region 分 裂 后 ， 负 责 新 Region 的 分 配 。 


- 在 RegionServer 死 机 后 ， 负 责 失 效 RegionServer 上 的 Region 迁 移 。 
gi g g 


1.44 Region 节点 HRegionserver 


HRegionServer 主 要 负责 响应 用 户 /O 请 求 ， 向 HDFS 文 件 系 统 中 读 写 数据 ， 是 HBase 中 最 核心 的 模块 。HRegionServer 内 部 管理 了 一 系列 HRegion 对 象 ， 每 个 HRegion 对 应 了 Table 中 的 一 个 Region。 
HRegion 由 多 个 HStore 组 成 ， 每 个 HStore 对 应 了 Table 中 的 一 个 Column Family 的 存储 。 可 以 看 出 每 个 Column Family 其 实 就 是 一 个 集中 的 存储 单元 ， 因 此 最 好 将 具备 共同 /O 特 性 的 列 放 在 一 个 Column 
Family 中 ， 这 样 能 保证 读 写 的 高 效 性 。HRegionServer 的 组 成 结构 如 图 1-4 所 示 。 


如 图 1-4 所 示 ，HStore 存 储 是 HBase 存 储 的 核心 ， 由 两 部 分 组 成 : MemStore 和 StoreFile。MemStore 是 Sorted Memory Buffer， 用 户 写 入 的 数据 首先 会 放 入 Memstore 中 ， 当 Memstore 满 了 以 后 会 
缓冲 (flush) 成 一 个 StoreFile (底层 实现 是 HFile) ， 当 StoreFile 文 件数 量 增长 到 一 定 阔 值 ， 会 触发 Compact 操 作 ， 将 多 个 StoreFiles 合 并 成 一 个 StoreFile， 在 合并 过 程 中 会 进行 版 本 合并 和 数据 删除 ， 因 
此 可 以 看 出 HBase 其 实 只 有 增加 数据 ， 所 有 的 更 新 和 删除 操作 都 是 在 后 续 的 Compact 过 程 中 进行 的 ， 这 使 得 用 户 的 写 操作 只 要 进入 内 存 中 就 可 以 立即 返回 ， 保 证 了 HBase MO 的 高 性 能 。 


图 1-4 HRegionServet 的 组 成 结构 


StoreFiles 在 触发 Compact 操 作 后 ， 会 逐步 形成 越 来 越 大 的 StoreFile， 当 单个 StoreFile 大 小 超过 一 定 阔 值 后 ， 会 触发 Split 操 作 ， 同 时 把 当前 Region 分 裂 成 2 个 Region， 父 Region 会 下 线 ， 新 分 裂 的 2 个 
子 Region 会 被 HMaster 分 配 到 相应 的 HRegionServer 上 ， 使 得 原先 1 个 Region 的 压力 得 以 分 流 到 2 个 Region 上 。 


每 个 HRegionServer 中 都 有 一 个 HLog 对 象 ，HLog 是 一 个 实现 Write Ahead Log 的 类 ， 在 每 次 用 户 操作 写 入 Memstore 的 同时 ， 也 会 写 一 份 数据 到 HLog 文 件 中 ，HLog 文 件 定期 会 滚动 出 新 ， 并 删除 卓 
的 文件 (已 持久 化 到 StoreFile 中 的 数据 ) 。 在 HRegionServer 意 外 终止 后 ，HMaster 会 通过 ZooKeeper 感 知 到 ， 首 先 处 理 遗留 的 HLog 文 件 ， 将 其 中 不 同 Region 的 Log 数 据 进行 拆 分 ， 分 别 放 到 相应 Region 
的 目录 下 ， 然 后 再 将 失效 的 Region 重 新 分 配 ， 领 取 到 这 些 Region 的 HRegionServer 在 加 载 Region 的 过 程 中 ， 会 发 现 有 历史 HLog 需 要 处 理 ， 因 此 会 将 HLog 中 的 数据 回放 到 Memstore 中 ， 然 后 缓冲 
(flush) 到 StoreFiles， 完 成 数据 恢复 。 


1.5 ”HBase 的 使 用 场景 和 经 典 案例 


了 解 软 件 产品 的 最 好 方法 是 如 何 使 用 ， 解 决 什么 问题 以 及 如 何 适 用 于 大 型 应 用 架构 。 接 下 来 的 内 容 将 详细 介绍 一 些 业界 成 功 使 用 HBase 的 场景 。 但 是 ， 不 要 认为 HBase 只 能 解决 下 面 的 这 些 使 用 场景 ， 
因为 它 是 一 个 正在 发 展 和 完善 的 技术 框架 ， 根 据 使 用 场景 进行 的 创新 正 驱动 着 系统 的 发 展 。 


下 面 是 对 HBase 适 用 场景 的 一 些 抽象 概括 ， 从 需求 角度 进行 抽象 ， 涵 盖 存 储量 级 、 性 能 、 扩 展 、 数 据 格式 和 关联 关系 等 方面 。 


“ 存储 大 量 的 数据 (PB 级 数据 ) 且 能 保证 良好 的 随机 访问 性 能 。 

“ 需要 很 高 的 写 吞 吐 量 ,瞬间 写 入 量 很 大 ， 传 统 数 据 库 不 能 支撑 或 需要 很 高 成 本 支撑 的 场 最 。 
“ 可 以 进行 优雅 的 数据 扩展 ， 动 态 扩展 整个 存储 系统 容量 。 

“ 数据 格式 无 限制 ， 支 持 半 结构 化 和 非 结构 化 的 数据 。 


“ 业务 场景 简单 ， 不 需要 全 部 的 关系 型 数据 库 特 性 ， 例 如 交叉 列 、 交 叉 表 ， 事 务 、 连 接 等 。 


愿意 使 用 HBase 的 用 户 数量 在 过 去 几 年 里 迅猛 增长 ， 部 分 原因 在 于 HBase 产 品 变 得 更 加 可 靠 ， 性 能 变 得 更 好 ， 主 要 原因 在 于 越 来 越 多 的 公司 开始 投入 大 量 资源 来 支持 和 使 用 它 。 随 着 越 来 越 多 的 商业 服 
务 供应 商 提供 支持 ， 用 户 越发 自信 地 把 HBase 应 用 于 关键 应 用 系统 。 一 个 设计 初衷 是 存储 互联 网 持续 更 新 网 页 副本 的 技术 ， 用 在 互联 网 相关 的 其 他 方面 也 很 合适 。 下 面 涉及 通过 实际 案例 来 介绍 HBase 最 适 
合 的 应 用 场景 。 


1.5.1 ”搜索 引擎 应 用 


搜索 是 定位 用 户 感 兴趣 信息 的 行为 : 例如 ， 搜 索 “ 大 话 西游 ”， 用 户 可 能 非常 想 观看 这 部 电影 ， 或 者 想 了 解 这 部 电影 的 信息 。 搜 索 含有 特定 词语 的 文档 ， 需 要 查找 索引 ， 该 索引 提供 了 特定 词语 和 包含 
该 词语 的 所 有 文档 的 映射 。 为 了 能 够 搜索 ， 首 先 必须 建立 索引 。Google、 百 度 以 及 其 他 搜索 引擎 都 是 这 么 做 的 。 它 们 的 文档 库 是 互联 网 的 Web 页 面 。 


HBase 为 这 种 文档 库 提供 存储 、 行 级 访问 。 网 络 息 虫 可 以 基于 HBase 非 常 方便 地 插入 和 更 新 单个 文档 。 同 时 搜索 索引 可 以 基于 HBase 通 过 MapReduce 计 算 高 效 生成 。 如 果 访 问 单个 文档 ， 可 以 直接 从 
HBase 取 出 ( 即 随机 读 取 ) , 并且 HBase 支 持 多 种 访问 模式 。 


HBase 应 用 于 网 络 搜索 的 整个 逻辑 过 程 如 下 : 


1) 有 息 虫 持续 不 断 地 抓 取 新 页 面 存储 到 HBase 中 ; 


2) 在 整 张 表 上 使 用 MapReduce 计 算 并 生成 索引 ， 供 网 络 搜索 应 用 使 用 ; 


3) 


户 发 起 网 络 搜索 请 求 ; 


4) 网 络 搜索 应 


查询 建立 好 的 索引 ， 或 者 直接 从 HBase 得 到 单个 文档 ; 


5) 搜索 结果 提交 给 


户 。 


1.5.2， 增 量 数 据 存储 


在 大 多 数 情况 下 ， 


数据 通常 是 慢 慢 累加 到 已 有 数据 库 以 备 将 来 使 


， 例 如 分 析 、 处 理 和 服务 。 许 多 HBase 使 


场景 属于 这 个 类 别 一 一 使 用 HBase 作 为 数据 存储 ， 存 储 来 
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1. 增 量 监控 数据 : OpenTSDB 系 统 


h, 


可 能 是 记录 


户 看 了 什么 广告 和 看 多 长 时 间 的 广告 效果 数据 ， 也 可 能 是 记录 各 种 参数 的 时 间 序 列 数据 。 下 面 介绍 一 些 有 关 该 使 用 场景 的 成 功 案例 。 


如 果 一 款 Web 产 品 的 注册 上 
件 的 健康 状态 至 关 重 要 。 大 规模 监控 整个 环境 需要 能 够 采集 和 存储 来 


Stumb 


2. 增 量 


eUpon 开 源 了 OpenTSDB 框 架 ， 其 含义 是 开放 时 间 序列 数据 [] 库 (Open Time Series Database) ， 用 来 
参数 。 创 建 这 个 框架 的 目的 是 为 了 拥有 一 个 可 扩 


过 Facebook 的 读者 ， 应 该 记得 其 特有 


础 架构 需 


户 达 到 干 万 ， 则 后 台 的 数 百 台 以 上 的 服务 器 ， 用 于 承担 服务 流量 、 


自 不 同 数据 源 的 各 种 参数 的 监控 系统 。 一 些 公司 使 


商业 工具 来 收集 和 


而 其 他 一 些 公 司 采 


开源 框架 。 


展示 参数 ， 


收集 服务 器 
3 一 方面 如 果 需 要 增加 功能 


展 的 监控 数据 收集 系统 ， 一 方面 能 够 存储 和 检索 参数 数据 并 保存 很 长 时 也 可 以 随时 添加 各 种 新 参数 。 


aj 


户 交 互 数 据 : Facebook Like 按 钮 


的 Like 按 钮 ， 该 按钮 已 经 成 为 Facebook 的 标志 之 一 ， 每 次 


自 各 种 数据 源 的 增 量 数据 。 这 种 


志 收 集 、 数 据 存 储 和 数据 处 理 等 操作 。 为 了 保持 产品 正常 运行 ， 监 控 服务 器 和 其 中 运行 软 


的 各 种 监控 参数 。 该 框架 使 用 HBasef 作 为 核心 平台 来 存储 和 检索 所 收集 的 


户 喜 欢 一 个 特定 主题 时 ， 计 数 器 就 增加 一 次 。 这 里 的 计数 器 是 一 个 整数 类 型 的 变量 ， 每 次 触发 喜欢 


操作 就 加 1。 这 就 是 另外 一 种 增 量 数据 户 交 互 数据 。 

Facebook 使 用 HBase 的 计数 器 来 计量 用 户 喜 欢 特定 网 页 的 次 数 ， 内 容 原 创 人 和 页 面 所 有 者 可 以 得 到 近乎 实时 的 多 少 用 户 喜欢 他 们 网 页 的 数据 信息 。 他 们 可 以 因此 更 敏捷 地 判断 应 该 提供 什么 内 容 。 
Facebook 为 此 创建 了 一 个 叫 Facebook Insight 的 系统 ， 该 系统 需要 一 个 可 扩展 的 存储 系统 。 在 技术 选 型 的 时 候 考 虑 了 很 多 种 可 能 ， 包 括 关系 型 数据 库 、 内 存 数据 库 和 Cassandra 数 据 库 ， 最 后 决定 使 
HBase。 基 于 HBase，Facebook 可 以 很 方便 地 横向 扩展 服务 规模 ， 提 供给 数 百 万 用 户 ， 也 可 以 继续 使 用 他 们 已 有 的 运行 大 规模 HBase 集 群 的 经 验 。 该 系统 每 天 处 理 数 百 亿 条 事件 ， 记 录 数 百 个 参数 。 

3. 增 量 遥 测 数 据 : Firefox 浏 览 器 

软件 运行 和 质量 数据 ， 不 会 像 监控 参数 数据 那么 简单 。 例 如 ， 软 件 骨 省 报告 是 有 用 的 软件 运行 数据 ， 经 常用 来 探究 软件 质量 和 规划 软件 开发 路 线 图 。HBase 可 以 成 功 地 收集 和 存储 用 户 计 算 机 上 生成 的 
软件 崩溃 报告 。 这 种 使 用 场景 与 前 两 种 使 用 场景 不 同 ， 不 一 定 与 网 络 服务 应 用 有 关系 。 


Mozilla 最 出 色 的 软件 就 是 Firefox 浏 览 器 ， 该 软件 安装 在 全 球 数 干 万 量 级 的 个 人 计算 机 上 ， 支 持 各 种 操作 系统 。 当 浏览 器 出 现 异 常 或 者 崩溃 时 ， 会 以 Bug 报 告 的 形式 返回 给 Mozilla 
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Socorro 系 统 收集 这 些 报告 ， 该 系统 的 数据 存储 和 分 析 建 构 在 HBase 上 ， 分 析 结果 上 


向 研发 部 门 提供 建议 和 决策 支持 。 采 上 


上 帮助 和 指导 开发 人 员 。 


4. 增 量 广告 点 击 数据 : 电 商 、 广 告 监控 行业 


现今 ， 在 线 广告 已 经 成 为 互 
户 的 特征 。 精 4 
数据 一 旦 产生 就 能 够 马上 使 用 ， 


分 析 ， 以 便 理 解 


K 


产品 的 一 个 主要 收入 来 源 。 绝 大 部 分 的 互联 网 产品 提供 免费 服务 给 用 户 ， 在 用 户 使 用 服务 时 投放 广告 给 目标 用 户 。 这 种 精准 投放 需要 针对 
的 用 户 交互 数据 带 来 更 好 的 模型 ， 进 而 导致 更 好 的 广告 投放 效果 和 更 多 的 收入 。 但 这 类 数据 有 两 个 特点 : 以 连续 流 的 形式 出 现 、 很 容易 按 
户 特征 模型 可 以 没有 延迟 地 持续 优化 。 


EARS. Mozilla 


HBase 可 以 存储 更 多 的 数据 ， 使 得 分 析 结果 更 加 准确 ， 可 以 在 更 大 程度 


户 交 互 数据 做 详细 的 采集 和 
户 划分 。 在 理想 情况 下 ， 这 科 


国内 的 电 商 和 广告 监控 等 非常 前 沿 、 活 跃 的 互联 网 公司 已 经 在 熟练 地 使 用 类 似 Hadoop 和 HBase 这 样 的 新 技术 ， 例 如 淘宝 的 实时 个 性 化 推荐 服务 ， 中 间 推 荐 结果 的 存储 使 用 HBase， 并 且 广 告 相关 的 
户 建 模 数据 也 存储 在 HBase 中 。 广 告 监控 行业 中 的 AdMaster、 缔 元 信 等 公司 的 实时 广告 数据 监控 和 部 分 报表 业务 已 经 在 使 用 HBase。 
1.53 APARRA 

传统 数据 库 的 一 个 最 大 使 用 场合 是 为 用 户 提供 内 容 服务 。 各 种 各 样 的 数据 库 支 撑 着 提供 各 种 内 容 服务 的 应 用 系统 。 多 年 来 ， 这 些 应 用 在 发 展 ， 它 们 所 依赖 的 数据 库 也 在 发 展 。 用 户 希 望 使 用 和 交互 的 内 
容 种 类 越 来 越 多 。 


1. 内 容 推荐 引擎 系统 : 搜狐 


搜狐 推荐 引擎 系统 接 入 几 亿 
上 ， 推 荐 请 求 的 响应 延 时 控制 在 70ms 以 内 ， 同 时 系统 要 求 10s 左 右 完成 从 


这 些 性 能 需求 指标 是 整个 系统 的 难点 ， 需 


户 的 行为 日 志 ， 每 日 资讯 


量 在 百 万 级 ， 每 秒 约 有 几 万 条 左右 的 
志 到 用 户 模型 的 修正 过 程 。 


户 日 志 被 实时 处 理 入 库 。 在 这 种 数据 量 上 ， 要 求 推荐 请 求 和 相关 新 闻 请 求 每 秒 支持 的 访问 次 数 在 万 次 以 


维护 几 亿 


实时 计算 | 


户 200GB 的 短期 属性 信息 ， 同 时 依靠 这 些 随 用 户 行为 实时 变化 的 属性 信息 来 更 新 用 户 感 兴趣 的 文章 主题 ， 


户 所 


属 的 兴趣 小 组 ， 完 


成 由 短期 兴趣 主导 的 内 容 推荐 和 


户 模型 服务 : 电 商 行业 


户 组 协同 推荐 。 记 录 


户 浏览 历史 、 周 期 性 计算 热门 文章 等 都 是 在 HBase 上 完成 的 ， 由 此 可 见 HBase 在 高 性 能 上 的 优势 。 


经 过 HBase 处 理 过 的 内 容 往往 并 不 直接 提交 给 用 户 使 用 ， 而 是 用 来 丰富 与 用 户 的 交互 ， 具 体 是 决定 应 该 提交 给 用 户 什 么 内 容 。 用 户 模型 可 以 存储 在 HBase， 用 户 模型 多 种 多 样 ， 可 以 用 于 多 种 不 同 场 
景 ， 例 如 ， 针 对 特定 用 户 投放 什么 广告 ， 用 户 在 电 商 门户 网 站 购物 时 是 否 实时 报价 ， 用 户 在 搜索 引擎 检索 时 增加 背景 信息 和 关联 内 容 ， 等 等 。 当 用 户 在 电 商 网 站 上 发 生 交易 时 ， 用 户 模型 服务 可 以 用 来 实时 
报价 。 这 种 模型 需要 基于 不 断 产生 的 新 用 户 数据 来 持续 优化 。 


1.5.4 ”实时 消息 系统 构建 


Facebook 全 新 的 Social Inbox 产 品 ， 集 成 了 E-mail、IM、 短 信 、 文 本 信息 、 在 线 消息 。 最 为 重要 的 是 ， 该 产品 每 个 月 要 存储 超过 1350 亿 条 消息 。Facebook 的 Kannan Muthukkaruppan 在 《邮件 的 
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就 是 为 邮件 类 型 的 应 
据 和 索引 的 增加 变 差 。 


而 打造 的 ， 但 是 Facebook 发 现 Cassandra 的 最 终 一 致 性 模型 并 不 适合 其 全 新 的 实时 邮件 产品 。Facebook 同 样 拥有 大 量 的 MySQL 架 构 ， 但 是 在 使 有 
所 以 ，Facebook 同 样 可 以 选择 自己 来 开发 一 个 新 的 存储 模型 ， 但 是 最 终 选 择 了 HBase。 


Facebook 检 视 了 


EL ILI 


己 的 应 上 


场景 ， 指 出 为 什么 要 选择 HBase。Facebook 所 需要 的 系统 应 该 能 处 理 以 下 两 种 数据 : 


数据 集 ， 是 经 常 变 化 的 ; 


“ 一 个 不 断 增加 的 数据 集 ， 是 很 少 被 访问 的 。 


0 其 他 一 些 技术 ， 成 为 Facebook 的 选择 。 为 什么 说 是 一 个 意外 的 答案 ? Cassandra 是 Facebook 创 造 的 ， 并 且 它 
过 程 中 发 现 MySQL 性 能 会 随 着 数 


显然 HBase 就 能 搞定 这 一 切 。Facebook 在 Hadoop、Hive 上 积累 了 丰富 的 经 验 ， 并 且 成 为 HBase 的 “大 客户 ”， 基 于 这 点 ， 我 们 也 有 充足 理由 相信 它 能 变 得 更 加 流行 。 


[1] 按照 时 间 顺 序 收集 和 记录 数据 ， 即 时 间 序 列 数据 。 


16 ”本章 小 结 


本 章 主 要 介绍 了 HBase 上 下 文 相关 的 知识 ， 包 括 大 数据 背景 、HBase 的 发 展 历史 、 发 行 版 本 、 特 性 、 核 心 功能 模块 以 及 使 用 场景 和 经 典 案例 等 知识 点 ， 并 且 详 细 介 绍 了 HBase 是 什么 和 HBase 能 做 什么 
两 个 要 点 ， 方 便 读 者 快速 理解 和 掌握 HBase 框 架 。 


任何 一 种 框架 或 者 软件 都 有 其 特定 的 应 用 场景 ， 类 似 “ 万 金 油 ” 的 框架 是 10 年 前 大 家 追求 的 设计 理念 ， 所 以 HBase 有 其 特定 的 使 用 场景 。 通 过 本 章 学 习 ， 初 学 者 可 以 迅速 掌握 HBase 能 用 来 做 什么 ， 不 
来 做 什么 ， 最 大 程度 上 缩短 读者 的 学 习 和 使 用 成 本 。 


m 
SG 


第 2 章 ”HBase 安 装 与 配置 


本 章 将 讲述 如 何 安 装 、 部 署 、 启 动 和 停止 HBase 和 集群， 以 及 如 何 通过 命令 行 的 方式 对 HBase 进 行 基本 操作 ， 例 如 : 插入 、 查 询 、 删 除数 据 。 


在 安装 HBase 之 前 强烈 建议 各 位 读者 仔细 阅读 2.1 节 ， 确 定 这 些 基本 需求 都 已 经 满足 ， 否 则 可 能 遇 到 各 种 棘手 的 问题 ， 比 如 查询 不 到 数据 甚至 丢失 数据 。 配 置 HBase 的 方式 与 Hadoop 类 似 ， 都 是 通过 修 
改 安装 包 的 conf 目 录 下 的 配置 文件 完成 的 。 在 对 一 台 机 器 修改 配置 文件 后 要 记得 同步 到 集群 中 所 有 节点 ， 此 时 可 以 使 用 scp 或 rsync 命 令 ， 在 大 多 数 情况 下 ， 需 要 重新 启动 HBase 使 配置 生效 。 


2.1 ”先决 条 件 


在 开始 安装 HBase 之 前 需要 做 一 些 准备 工作 ， 这 涉及 操作 系统 设置 、 分 布 式 模式 Hadoop 的 部 署 及 HBase 自 身 的 配 
要 的 中 间 件 、 系 统 服务 或 配置 。 


此 要 确保 在 运行 HBase 之 前 这 些 条 件 已 经 具备 。 以 下 将 介绍 HBase 依 赖 的 一 些 引 
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1. 运 行 时 环境 JDK 


和 Hadoop 一 样 ，HBase 需 要 JDK1.6 或 者 更 高 版 本 ， 推 荐 采用 Oracle 公 司 的 版 本 ， 对 于 JDK1.6 不 要 使 用 u18 及 以 前 的 版 本 ， 因 为 这 些 版 本 Java 的 垃圾 收集 器 会 遇 到 “jvm crash” 的 问题 (可 以 通过 
Goolge 搜 索 “jvm crash” 找 到 该 问题 的 详细 描述 ) 。 为 了 能 够 管理 超过 4GB 内 存 空间 ， 需 要 安装 64 位 的 JDK。 


2.SSH 服 务 


集群 模式 的 HBase 的 启动 或 关闭 依赖 于 SSH 服 务 ， 所 以 操作 系统 必须 安装 该 服务 ，sshd 进 程 必 须 处 于 运行 状态 ， 可 执行 以 下 命令 查看 服务 状态 : 


Service sshd status 


HBase 通 过 SSH 管 理 所 有 节点 的 守护 进程 ， 和 Hadoop 的 NameNode 一 样 ，HMaster 必 须 能 够 免 密 登 录 到 集群 的 所 有 节点 ， 可 以 通过 Google 搜 索 “SSsH 免 密 登 录 ” 找 到 如 何 配置 。 注 意 由 于 HBase 通 常 
有 多 个 HMaster 节 点 ， 所 以 需要 每 个 HMaster 到 所 有 节点 都 可 以 免 密 登录 。 


3. 域 名 系统 DNS 


HBase 通 过 本 地 主机 名 (Host Name) 或 域名 (Domain Name) 来 获取 IP 地 址 ， 因 此 要 确保 正 向 和 反 向 DNS 解析 是 正常 的 。 在 进行 DNS 解析 时 会 首先 查询 本 地 /etc/hosts 文 件 ， 因 此 建议 通过 配置 该 
文件 指定 主机 名 或 域名 到 IP 地 址 的 映射 关系 而 不 使 用 域名 解析 服务 ， 这 样 做 将 更 易于 维护 ， 当 出 现 主机 无 法 识别 的 异常 时 也 更 加 容易 定位 问题 出 现 的 位 置 ， 并 且 通 过 本 地 /etc/hosts 文 件 解析 IP 地 址 速度 也 
会 更 快 一 些 。 


当 决 定 使 用 DNS 服务 的 时 候 ， 还 可 以 通过 如 下 设置 更 加 精确 地 控制 HBase 的 行为 。 


如 果 有 多 个 网 卡 ， 可 以 通过 参数 hbase.regionserver.dns.interface 指 定 主 网 卡 ， 该 配置 参数 的 默认 值 是 default， 可 以 通过 这 个 参数 指定 主 网 络 接口 ， 不 过 这 要 求 集群 所 有 节点 配置 是 相同 的 且 每 台 主 
机 都 使 用 相同 的 网 卡 配置 ， 可 以 修改 这 个 配置 参数 为 eth0 或 eth1， 这 要 视 具 体 的 硬件 配置 而 定 。 


另外 一 个 配置 是 指定 hbase.regionserver.dns.nameserver 可 以 选择 一 个 不 同 的 DNS 的 name server, 


4. 本 地 环 回 地 址 Loopback IP 


HBase 要 求 将 本 地 回环 接口 配置 成 127.0.0.1， 可 以 在 /etc/hosts 文 件 配置 ， 通 常 系统 安装 后 都 已 经 包含 了 该 配置 。 


127.0.0.1 localhost 


5. 网 络 时 间 协 议 NTP 


HBase 要 求 集群 中 节点 间 的 系统 时 间 要 基本 一 致 ， 可 以 容忍 一 些 偏差 ， 默 认 相差 30s 以 内 。 可 以 通过 设置 参数 hbase.master.maxclockskew 属 性 值 修改 最 大 容忍 偏差 时 间 。 偏 差 时 间 较 多 时 集群 会 产生 
一 些 奇怪 的 行为 。 用 户 需 要 在 集群 中 运行 NTP 服 务 来 同步 集群 的 时 间 ， 如 果 在 运行 正常 的 集群 中 读 取 数 据 发 生 了 一 些 莫名 其 妙 的 问题 ， 例 如 读 到 的 不 是 刚 写 进 集群 的 数据 而 是 旧 的 数据 ， 这 时 需要 检查 集群 
各 节点 间 时 间 是 否 同步 。 


6 .资源 限制 命令 : ulimit 和 nproc 


HBase 和 其 他 的 数据 库 软 件 一 样 会 同时 打开 很 多 文件 。Linux 中 默认 的 ulimit 值 是 1024， 这 对 HBase 来 说 太 小 了 。 当 使 用 诸如 bulkload 这 种 工具 批量 导入 数据 的 时 候 会 得 到 这 样 的 异常 信息 : 
java.io.IOException:Too many open files。 我 们 需要 改变 这 个 值 ， 注 意 ， 这 是 对 操作 系统 的 参数 调整 ， 而 不 是 通过 HBase 配 置 文件 完成 的 ， 我 们 可 以 大 致 估算 ulimit 值 需要 配置 为 多 大 ， 例 如 : 每 个 列 族 至 
少 有 一 个 存储 文件 (HFile) ， 每 个 被 加 载 的 Region 可 能 管理 多 达 5 或 6 个 列 族 所 对 应 的 存储 文件 ， 用 存储 文件 的 个 数 乘 以 列 族 数 再 乘 以 每 个 RegionServer 中 的 Region 数 量 得 到 Regionserver 主 机 管理 的 存储 
文件 数量 。 假 如 每 个 Region 有 3 个 列 族 ， 每 个 列 族 平均 有 3 个 存储 文件 ， 每 个 Regionserver 有 100 个 region， 将 至 少 需要 3x3x100=900 个 文件 。 这 些 存储 文件 会 频繁 被 客户 端 调用 ， 涉 及 大 量 的 磁盘 操作 ， 
应 根据 实际 情况 调整 ulimit 参 数值 的 大 小 。 


关于 ulimit 有 两 个 地 方 需要 调整 ， 通 过 在 /etc/security/limits.conf 追 加 参数 进行 设置 ， 一 个 参数 是 nofile， 设 置 如 下 : 


soft nofile 10240 
hard nofile 10240 


如 果 没 有 设置 这 个 参数 可 能 会 得 到 上 面 说 的 异常 。 这 个 设置 表示 限制 打开 的 文件 数 。 这 个 配置 不 能 即时 生效 ， 还 需 通 过 ulimit-n 设 置 ， 可 以 执行 下 面 的 命令 : 


ulimit -n 10240 


另外 一 个 参数 是 noproc， 这 个 配置 是 限制 用 户 打开 的 进程 数 ， 设 置 如 下 : 


* soft noproc 10240 
* hard noproc 10240 


该 设置 可 以 即时 生效 ， 可 通过 ulimit-c 查 看 。 如 果 不 设置 hoproc 可 能 得 到 如 下 异常 : 


java.lang.OutOfMemoryError: unable to create new native thread 


实际 上 这 两 个 参数 对 于 HDFS 和 MapReduce 也 至 关 重 要 ， 应 该 在 启动 Hadoop 之 前 就 设置 好 。 另 外 注意 这 两 个 参数 是 针对 操作 系统 用 户 的 ，* 代 表 对 所 有 用 户 生 效 。 


7. 操 作 系统 Windows 


和 Hadoop 一 样 ，HBase 在 Windows 系 统 下 没有 经 过 严格 的 测试 ， 因 此 不 建议 在 生产 环境 中 将 HBase 运 行 在 Windows 下 ， 如 果 想 在 Windows 下 安装 HBase， 需 要 安装 Cygwin。 从 0.96 版 本 开 
始 ，HBase 提 供 了 一 套 .cmd 的 Windows 运 行 脚本 。 


8.Hadoop 版 本 选择 


不 同 版 本 的 HBase 依 赖 于 特定 的 Hadoop 版 本 ， 第 1 章 的 表 1-1 显 示 了 不 同 的 Hadoop 版 本 对 于 HBase 的 支持 情况 ， 不 管 是 Apache 社 区 版 还 是 一 些 商业 开源 版 本 (例如 Cloudera 的 CDH 或 者 
Hortonworks 的 HDP) ， 应 该 选择 最 合适 的 Hadoop 版 本 。 本 书 使 用 的 Hadoop 版 本 是 1.2.1，HBase 版 本 是 0.94.18，ZooKeeper 版 本 是 3.4.5。 


(1) Hadoopjar 包 


由 于 HBase 依 赖 于 Hadoop， 因 此 在 安装 包 的 lib 文 件 夹 下 包含 了 一 个 Hadoop 的 核心 jar 文 件 ， 在 本 书 使 用 的 HBase 版 本 的 lib 目 录 下 包含 的 是 hadoop-core-1.0.4.jar。 在 分 布 式 模式 下 ，HBase 使 
Hadoop 版 本 必须 和 运行 中 的 Hadoop 集 群 的 jar 文 件 版 本 一 致 。 将 运行 的 分 布 式 Hadoop 版 本 jar 文 件 蔡 换 HBase 的 lib 目 录 下 的 Hadoop 的 jar 文 件 ， 以 避免 版 本 不 匹配 问题 。 确 认 蔡 换 了 集群 中 所 有 节点 
HBase 安 装 目录 下 lib 目 录 的 jar 文 件 。Hadoop 版 本 不 匹配 问题 有 不 同 表 现 ， 但 看 起 来 HBase 像 挂 掉 了 。 
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(2) Hadoop 2.x 优 于 Hadoop 1.x 
Hadoop 2.x 的 一 些 改进 使 得 读 取 数 据 效 率 提 升 ， 比 如 short-circuit 特 性 可 以 显著 提升 HBase 的 随机 读 的 性 能 ， 所 以 尽量 选择 Hadoop 2.x 版 本 。 


(3) dfs.datanode.max.xcievers 


Hadoop 的 Datanode 有 一 个 用 于 设置 同时 处 理 文件 的 上 限 个 数 的 参数 ， 这 个 参数 叫 xcievers (Hadoop 的 作者 把 这 个 单词 拼 错 了 ) 。 在 启动 之 前 ， 先 确认 有 没有 配置 Hadoop 的 conf 目 录 下 的 hdfs- 
site.xml 中 的 xceivers 参 数 ， 默 认 值 是 256， 这 对 于 一 个 任务 很 多 的 集群 来 说 太 小 了 ， 至 少 是 4096， 一 个 大 型 集群 通常 比 这 个 值 还 大 得 多 : 


«property» 
«name»dfs.datanode.max.xcievers«/name» 
«value»4096«/value» 

«/property» 


对 于 HDFS， 如 果 修 改 此 项 配置 ， 要 记得 重启 。 如 果 没 有 这 一 项 配置 ， 可 能 会 遇 到 奇怪 的 失败 。 虽 然 会 在 Datanode 的 日 志 中 看 到 xcievers exceeded， 但 是 运行 起 来 会 报 missing blocks 错 误 ， 例 如 : 


java.io.IOException: xceiverCount 258 exceeds the limit of concurrent xcievers 256 


9.HBase 安 全 


HBase 运 行 在 Hadoop 上 ， 在 Hadoop 1.0.0 版 本 中 已 经 加 入 最 新 的 安全 机 制 和 授权 机 制 (Simple 和 Kerberos) ， 只 要 运行 的 是 这 之 后 的 版 本 就 可 以 使 用 这 些 安 全 特性 。HBase 的 安全 主要 是 基于 用 户 、 
户 组 和 角色 对 表 (或 是 更 细 粒 度 的 列 族 、 列 ) 进行 安全 检查 。 在 认证 方面 ， 它 主要 是 通过 Kerberos 来 完成 的 ，HBase 安 全 的 大 部 分 代码 是 在 解决 认证 的 问题 ， 也 就 是 根据 用 户 权限 判定 其 是 否 有 权 访 问 某 


10. 安 装 ZooKeeper 


ZooKeeper 是 HBase 集 群 的 “协调 器 ”， 负 责 解决 HMaster 的 单 点 问题 ， 以 及 root 表 的 路 由 ， 所 以 一 个 独立 的 ZooKeeper 服 务 是 必需 的 。 要 确保 事先 安装 好 一 个 ZooKeeper 集 群 。 


2.2 ”HBase 运 行 模式 


HBase 有 两 种 运行 模式 : 单机 模式 和 分 布 式 模式 。 在 默认 情况 下 HBase 运 行 在 单机 模式 下 ， 如 果 要 运行 分 布 式 模式 的 HBase， 需 要 编辑 安装 目录 下 conf 文 件 夹 中 相关 的 配置 文件 。 


不 管 运 行 在 什么 模式 下 ， 都 需要 编辑 安装 包 的 conf 目 录 下 的 hbase-env.sh 文 件 来 告知 HBase Java 的 安装 路 径 。 在 这 个 文件 中 还 可 以 设置 HBase 的 运行 环境 ， 诸 如 Heap Size 和 其 他 有 关 JVM 的 选项 , 还 
有 日 志文 件 保存 目录 、 进 程 优先 级 等 。 最 重要 的 是 设置 JAVA_HOME 指 向 Java 安 装 的 路 径 ， 在 该 文件 中 搜索 JAVA_HOME， 找 到 如 下 一 行 : 


4 export JAVA HOME-/usr/java/jdkl.6.0/ 


去 掉 前 面 的 # 注 释 ， 将 JAVA_HOME 配 置 为 实际 的 Java 安 装 路 径 。 


2.2.1 单机 模式 


这 是 HBase 默 认 的 运行 模式 ， 在 单机 模式 中 ，HBase 使 用 本 地 文件 系统 ， 而 不 是 HDFS， 所 有 的 服务 和 ZooKeeper 都 运行 在 一 个 JVM 中 。ZooKeeper 监 听 一 个 端口 ， 这 样 客 户 端 就 可 以 连接 HBase 了 。 


1. 配 置 JDK 


需要 安装 64 位 版 本 的 JDK， 推 荐 Oracle 公 司 的 发 行 版 ， 可 以 在 http://www.oracle.com/us/downloads 下 载 并 安装 ， 同 时 在 环境 变量 中 设置 JAVA_HOME 和 Classpath。 


2.HBase 安 装 


在 Apache 的 网 站 上 下 载 一 个 稳定 版 本 的 安装 包 ， 可 以 在 这 里 找到 http://www.apache.org/dyn/closer.cgi/hbase/， 本 书 使 用 的 版 本 是 0.94.18。 


在 待 安装 的 目录 下 解压 缩 安装 包 : 


tar zxf hbase-0.94.18.tar.gz 


除了 在 安装 包 的 conf 目 录 下 修改 hbase-env.sh 的 JAVA_HOME 外 ， 还 需要 修改 该 


录 下 的 hbase-site.xml| 文 件 ， 示 例如 下 : 


<? xml version-"1.0"? > 
<? xml-stylesheet type-"text/xsl" href-"configuration.xsl"? > 
«configuration» 
«property» 
«name^hbase.rootdir«/name» 
«value»file: ///DIRECTORY/hbase«/value» 
</property> 
<property> 
<name>hbase . zookeeper.property.dataDir«/name» 
<value>/DIRECTORY/zookeeper</value> 
</property> 
</configuration> 


其 中 : 
“ hbase.rootdit 代 表 HBase 数 据 存放 的 位 置 ， 单机 模式 下 存储 到 本 地 目录 。 


* hbase.zookeeper.property.dataDir 代 表 ZooKeeper 数 据 存 放 的 位 置 。 


W 


.启动 HBase 


运行 如 下 脚本 启动 HBase: 


bin/start-hbase.sh 


启动 成 功 后 通过 JPs 命 令 应 该 可 以 看 到 如 下 信息 : 


4496 HMaster 


通过 如 下 命令 可 以 连接 到 HBase 表 示 安 装 成 功 : 


bin/hbase shell 


连接 成 功 后 显示 : 


HBase Shell; enter 'help<RETURN>` for list of supported commands. 
Type "exit«RETURN»" to leave the HBase Shell 

Version 0.94.18, r1577788, Sat Mar 15 04: 46: 47 UTC 2014 

hbase (main) : 001: 0» 


222 ”分布 式 模式 


HBase 分 布 式 模式 有 两 种 。 伪 分 布 式 模式 是 把 所 有 进程 运行 在 一 台 机 器 上 ,但 不 是 一 个 JVM 上 ; 而 完全 分 布 式 模式 就 是 把 整个 服务 分 布 在 各 个 节点 上 。 无 论 采 用 哪 种 分 布 式 模式 ， 都 需要 使 用 HDFS。 在 


操作 HBase 之 前 ， 要 确认 HDFS 可 以 正常 运行 。 


在 安装 HBase 之 后 ， 需 要 确认 伪 分 布 式 模式 或 完全 分 布 式 模式 的 配置 是 否 正确 ， 这 两 种 模式 可 以 使 用 相同 的 验证 脚本 。 


1. 伪 分 布 式 模式 


伪 分 布 式 模式 是 一 个 相对 简单 的 分 布 式 模式 ， 是 用 于 测试 的 。 不 能 把 这 个 模式 


确认 HDFS 安 装 成 功 之 后 ， 就 可 以 先 编辑 安装 包 conf 目 录 下 的 hbase-site.xml。 
需要 设置 hbase.rootdir 属 性 。 该 属性 是 指 HBase 在 HDFS 中 使 用 的 目录 的 位 置 。 例 
在 hbase-site.xml 写 上 如 下 内 容 : 


于 生产 环节 ， 也 不 能 用 于 测试 性 能 。 
在 这 个 文件 中 可 以 加 入 
0，HBase 根 目录 是 /hbase，NameNode 监 听 locahost 的 9000 端 | 


自己 的 配置 ， 这 个 配置 会 覆盖 HBase 默 认 配 置 (默认 配置 在 hbase-default.xml 中 ) 。 运 行 HBase 


， 只 有 一 份 数据 副本 (HDFS 默 认 是 3 份 副本 ) 。 可 以 


«configuration» 
«property» 
«name»hbase.rootdir«/name» 
«value»hdfs: //localhost: 9000/hbase«/value» 
</property> 
<property> 
<name>dfs.replication</name> 
<value>1</value> 
</property> 
</configuration> 


Oz 由 HBase 自 己 创建 hbase.rootdir。 上 面 HDFS 绑 定 到 localhost， 也 就 是 说 除了 本 机 ， 其 他 机 器 连 不 上 HBase。 所 以 需要 将 localhost 设 置 成 主机 名 ， 其 他 机 器 才能 访问 它 。 


(1) 启动 HBase 


可 以 使 用 如 下 命令 启动 HBase: 


bin/start-hbase.sh 


也 可 以 在 同一 服务 器 启动 额外 备份 HMaster : 


bin/local-master-backup.sh start 1 


“1” 表 示 使 用 端口 60001 和 60011， 该 备份 的 HMaster 及 其 日 志文 件 放 在 logs/hbase-${USER}-1-master-$HOSTNAME}.log 中 。 


启动 多 个 备份 HMaster: 


bin/local-master-backup.sh start 2 3 


可 以 启动 9 个 备份 HMaster， 最 多 可 以 有 10 个 HMaster。 


如 果 要 启动 更 多 RegionServer， 可 以 执行 如 下 命令 : 


bin/local-regionservers.sh start 1 


“1” 表 示 使 用 端口 60201 和 60301， 日 志文 件 存放 在 logs/hbase-${USER}-1-regionserver$-{HOSTNAME}.log 中 。 


在 刚 运行 的 RegionServer 上 增加 4 个 额外 RegionServer， 最 多 可 以 支持 100 个 。 


bin/local-regionservers.sh start 2 3 4 5 


(2) 停止 HBase 


假设 想 停止 备份 HMaster 1， 运 行 如 下 命令 : 


cat /${PID_DIR}/hbase-${USER}-1-master.pid |xargs kill -9 


停止 RegionServer， 可 以 运行 如 下 命令 : 


bin/local-regionservers.sh stop 1 


2. 分 布 式 模式 


(1) 安装 ZooKeeper 


下 载 stable 版 本 的 ZooKeeper， 可 以 在 Apache 官 方 网 站 下 载 ， 地 址 是 http://www.apache.org/dyn/closer.cgi/zookeeper/， 本 书 使 用 的 是 3.4.5 版 本 。 


解压 缩 安装 包 : 


tar zxf zookeeper-3.4.5.tar.gz 


将 安装 包 conf 目 录 下 的 zoo_sample.cfg 文 件 复制 一 份 ， 命 名 为 zoo.cfg。 


修改 zoo.cfg 配 置 文件 ， 示 例如 下 : 


# The number of milliseconds of each tick 
tickTime=2000 

# The number of ticks that the initial 

# synchronization phase can take 

initLimit=10 

# The number of ticks that can pass between 

# sending a request and getting an acknowledgement 
syncLimit-5 

# the directory where the snapshot is stored. 

# do not use /tmp for storage, /tmp here is just 
# example sakes. 
dataDir-/home/hadoop/zookeeper-3.4.5/zookeeperdir/zookeeper-data 
dataLogDir-/home/hadoop/zookeeper-3.4.5/zookeeperdir/logs 
# the port at which the clients will connect 
clientPort-2181 

# Be sure to read the maintenance section of the 

# administrator guide before turning on autopurge. 
# The number of snapshots to retain in dataDir 
fautopurge.snapRetainCount-3 

# Purge task interval in hours 

# Set to "0" to disable auto purge feature 
fautopurge.purgeInterval-1l 

# 2888, 3888 are election port 

server.l-hostl: 2888: 3888 


其 中 ，2888 是 ZooKeeper 服 务 之 间 通 信 的 端口 ， 而 3888 是 ZooKeeper 与 其 他 应 用 程序 通信 的 端口 。 


:initLimit: 这 个 配置 项 用 来 配置 ZooKeeper 接 收 客户 端 (这 里 所 说 的 客户 端 不 是 用 户 连 接 ZooKeeper 服 务 器 的 客户 端 ， 而 是 ZooKeeper 服 务 器 集群 中 连接 到 Leader 的 Follower 服 务 器 ) 初始 化 连接 时 最 长 能 
忍受 多 少 个 心跳 时 间 间 隔 数 。 这 里 设置 为 10， 说 明 如 果 超 过 10 个 心跳 时 间 (也 就 是 10 们 tickTime) 长 度 后 ZooKeeper 服 务 器 还 没有 收 到 客户 端的 返回 信息 ， 就 表明 这 个 客户 端 连 接 失败 。 总 的 时 间 长 度 就 是 
10X2000=20 (s) 。 


“ syncLimit: 这 个 配置 项 标识 Leader 与 Followet 之 间 发 送 消息 时 请 求 和 应 答 时 间 长 度 ， 最 长 不 能 超过 多 少 个 tickTime 的 时 间 长 度 ， 这 里 设置 为 5， 表 明 总 的 时 间 长 度 就 是 5X2000=10 (s) 。 


“server.A=B: C: D: 其 中 A 是 一 个 数字 ， 表 示 这 是 第 几 号 服务 器 ; B 是 这 台 服 务 器 的 IP 地 址 ; C 表 示 的 是 这 台 服 务 器 与 集群 中 的 Leader 服 务 器 交换 信息 的 端口 ; D 表 示 的 是 万 一 集群 中 的 Leader 服 务 器 死 
机 了 ， 需 要 一 个 端口 来 重新 进行 选举 ， 选 出 一 个 新 的 Leader 服 务 器 ， 而 这 个 端口 就 是 用 来 执行 选举 时 服务 器 相互 通信 的 端口 。 如 果 是 伪 集 群 的 配置 方式 ， 由 于 B 都 是 一 样 的 ， 因 此 不 同 的 ZooKeeper 实 例 通信 
端口 不 能 一 样 ， 要 为 它们 分 配 不 同 的 端口 。 


创建 dataDir 参 数 指定 的 目录 (这 里 指 的 是 /home/hadoop/zookeeper-3.4.5/zookeeperdir/zookeeper-data) ， 并 在 此 目录 下 创建 文件 ， 命 名 为 myid。 


编辑 myid 文 件 ， 并 在 对 应 的 主机 名 的 机 器 上 输入 对 应 的 编号 。 例 如 ， 在 host1 上 ，myid 文 件 内 容 就 是 |。 由 于 本 次 只 在 单 点 上 进行 安装 配置 ， 所 以 只 有 一 个 server.1。 若 还 有 其 他 服务 器 ， 比 如 主机 名 为 
host2， 则 在 zoo.cfg 文 件 中 还 需 加 入 server.2=host2:2888:3888， 那 么 myid 文 件 在 host2 服 务 器 上 的 内 容 就 是 >。 至此， 如果 是 多 服务 器 配置 ， 只 需要 将 zookeeper-3.4.5 目 录 复制 到 其 他 服务 器 ， 然 后 按照 
上 述 方法 修改 myid。 


设置 环境 变量 : 


export ZOOKEEPER HOME-/home/hadoop/zookeeper-3.4.5 
PATH-S$ZOOKEEPER HOME/bin: $PATH 
export PATH 


(2) 启动 并 测试 ZooKeeper 


在 所 有 服务 器 中 执行 : 


zkServer.sh start 


使 用 jps 命 令 查看 进程 : 


19361 QuorumPeerMain 


其 中 ，QuorumPeerMain 是 ZooKeeper 进 程 ， 说 明 启动 正常 。 


查看 服务 状态 命令 : 


zkServer.sh status 


打印 输出 结果 : 


JMX enabled by default 


Using config: /home/hadoop/zookeeper-3.4.5/bin/http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/ . ./conf/zoo.cfg 


Mode: standalone 


启动 客户 端 脚本 : 


zkCli.sh -server hosti: 2181 


停止 ZooKeeper 进 程 : 


zkServer.sh stop 


(3) 配置 HBase 


一 个 分 布 式 运行 的 Hbase 依 赖 一 个 ZooKeeper 集 群 。 所 有 的 节点 和 客户 端 都 必须 能 够 访问 ZooKeeper。 在 默认 情况 下 ，HBase 会 管理 一 个 ZooKeeper 集 群 。 这 个 集群 会 随 着 HBase 的 启动 而 启动 。 当 
然 ， 也 可 以 自己 管理 一 个 ZooKeeper 集 群 ， 需 要 修改 conf/hbase-env.sh 中 的 HBASE_MANAGES_ZK 来 切换 。HBASE_MANAGES_ZK 的 默认 值 是 true， 作 用 是 让 HBase 启 动 的 同时 也 启动 ZooKeeper。 


让 HBase 使 用 一 个 现 有 的 不 被 HBase 托 管 的 ZooKeeper 集 群 ， 需 要 设置 conf/hbase-env.sh 文 件 中 的 HBASE_ MANAGES ZK 属性 为 false。 由 于 本 书 中 使 用 HBase 管 理 ZooKeeper， 因 此 hbase-env.sh 


中 配置 如 下 : 


export HBASE MANAGES ZK=true 


(4) 配置 hbase-site.xml 


«configuration» 
«property» 
«name»hbase.rootdir«/name» 
«value»hdfs: //hostl: 9000/hbase«/value» 
«/property» 
<property> 
«name»hbase.cluster.distributed«/name» 
«value»true«/value» 
«/property» 

«property» 
«name»hbase.zookeeper.property.clientPort«/name» 
«value»2181«/value» 

«/property» 

«property» 

«name»hbase.zookeeper.quorum«/name» 
«value»hostl, host2, host3«/value» 

</property> 

<property> 
«name»hbase.zookeeper.property.dataDir«/name» 
«value» /home/hadoop/zookeeperdata«/value» 

«/property» 

«/configuration» 


* hbase.rootdir: 这 个 目录 是 RegionServer 的 共享 目录 ， 用 来 持久 化 HBase。URL 需 要 是 


“完全 正确 ”的 ， 还 要 包含 文件 系统 的 scheme。 例 如 ，“/hbase” 表 示 HBase 在 HDFS 中 占用 的 实际 存储 目录 ，HDFS 


的 NamenoNde 运 行 在 主机 名 为 host1 的 9000 端 口 ， 则 hbase.rootdir 的 设置 应 为 hdfs://host1:9000/hbase。 在 默认 情况 下 HBase 是 写 到 /tmp 中 的 。 不 修改 这 个 配置 ， 数 据 会 在 重启 的 时 候 丢失 。 默 认为 


file:// /tmp/hbase-$ (user.name] /hbase o 


- hbase.cluster.distributed: HBase 的 运行 模式 。 为 false 表 示 单 机 模式 ， 为 true 表 示 分 布 式 模式 。 若 为 false，HBase 和 ZooKeepet 会 运行 在 同一 个 JVM 中 。 默 认 值 是 false。 


当 HBase 管 理 ZooKeeper 的 时 候 ， 可 以 通过 修改 zoo.cfg 来 配置 ZooKeeper。 一 个 更 力 


site.xml 中 。 


0 简单 的 方法 是 在 conf/hbase-site.xml 中 修改 ZooKeeper 的 配置 。ZooKeeper 的 配置 作为 property 写 在 hbase- 


对 于 ZooKeeper 的 配置 ， 至 少 要 在 hbase-site.xml 中 列 出 全 部 的 ZooKeeper 的 主机 ， 具 体 的 参数 是 hbase.zookeeper.quorum， 该 属性 的 默认 值 是 localhost， 这 个 值 对 于 分 布 式 应 用 显然 是 不 可 用 的 


(远程 连接 无 法 使 用 ) 。 


ZooKeeper 集 群 的 地 址 列表 用 逗号 分 隔 ， 例 如 : “host1，host2，host3”。 默 认 是 Ilocalhost， 是 供 伪 分 布 式 模式 使 用 的 ， 修 改 才能 在 完全 分 布 式 模式 下 使 用 。 如 果 在 hbase-env.sh 中 设置 


HBASE MANAGES ZK 为 true， 这 些 ZooKeeper 节 点 就 会 和 Hbase 一 起 启动 。 


* hbase.zookeeper.property.clientPort: 表示 客户 端 连 接 ZooKeeper 的 端口 。 


运行 只 有 1 台 主 机 的 ZooKeeper 也 是 可 以 的 ， 但 是 在 生产 环境 中 ， 最 好 部 署 3、5、7 个 节点 。 部 署 得 越 多 ， 可 靠 性 就 越 高 ， 当 然 只 能 部 署 奇数 个 ， 偶 数 个 是 不 可 以 的 。 需 要 分 配给 每 个 ZooKeeper 1GB 


左右 的 内 存 ， 有 可 能 的 话 最 好 分 配 独立 的 磁盘 。 (独立 磁盘 可 以 确保 ZooKeeper 是 高 性 能 的 。) 如 果 集群 负载 很 重 ， 不 要 把 ZooKeeper 和 RegionServer 运 行 在 同一 台 机 器 上 。 


* base.zookeeper.property.dataDir: 这 个 参数 用 于 设置 ZooKeepet 快 照 的 存储 位 置 。 默 认 值 是 /tmp， 在 操作 重启 的 时 候 该 目录 会 被 清空 ， 应 该 修改 上 默认 值 到 其 他 目录 ， 可 以 修改 
到 /home/hadoop/zookeeperdata (这 个 路 径 需 要 运行 HBase 的 用 户 拥 有 读 写 操 作 权限 ) 。 


对 于 独立 的 ZooKeeper， 要 指明 ZooKeeper 的 主机 和 端口 ， 可 以 在 hbase-site.xml 中 设置 ， 也 可 以 在 HBase 的 CLASSPATH 下 面 加 一 个 zoo.cfg 配 置 文件 。HBase 会 优先 加 载 zoo.cfg 中 的 配置 ， 覆 盖 


hbase-site.xml 中 的 。 


(5) 配置 regionservers 文 件 


在 完全 分 布 式 模式 下 还 需要 修改 安装 包 的 conf 目 录 下 的 regionservers 文 件 。 在 这 里 列 出 了 希望 运行 的 全 部 RegionServer， 一 行 写 一 个 主机 名 (就 像 Hadoop 中 的 slaves 一 样 ) 。 这 里 列 出 的 Server 会 随 


着 集群 的 启动 而 启动 ， 集 群 的 停止 而 停止。 


regionservers 文 件 示例 : 


host1 
host2 


(6) 蔡 换 Hadoop 的 jar 包 


复制 Hadoop 安 装 路 径 的 lib 目 录 下 的 hadoop-core-*jar 包 到 HBase 的 lib 目 录 下 覆盖 HBase 自 带 的 Hadoop jar 包 ， 否 则 HBase 集 群 在 运行 时 可 能 出 现 一 些 难以 解决 的 问题 。 


(7) 运行 HBase 


当 ZooKeeper 由 HBase 托 管 的 时 候 ，Zookeeper 集 群 的 启动 是 Hbase 启 动 脚本 的 一 部 分 。 


首先 确认 HDFS 是 运行 着 的 ， 然 后 用 如 下 命令 启动 HBase: 


bin/start-hbase.sh 


这 个 脚本 在 HBASE_HOME 的 bin 目 录 中 。 现 在 HBase 已 经 启动 了 。HBase 把 log 记 在 logs 子 目录 中 ， 当 Hbase 启 动 出 问题 的 时 候 ， 可 以 查看 log 文 件 。 


HBase 有 一 个 Web 界 面 ， 上 面 会 列 出 重要 的 属性 。 该 Web 应 用 默认 启动 在 HBase HMaster 的 60010 端 口上 (HBase 的 RegionServer 会 默认 绑 定 60020 端 口 ， 在 端口 60030 上 有 一 个 
如 果 Master 运 行 在 host1， 端 口 是 默 认 的 ， 可 以 在 浏览 器 输入 http://host1:60010 后 看 到 主 界面 。 


一 旦 HBase 启 动 ， 可 以 使 用 命令 创建 表 ， 插 入 数据 ， 扫 描 数据 表 ， 还 有 禁用 这 个 表 ， 最 后 把 它 删 掉 。 


以 通过 如 下 脚本 停止 HBase 集 群 : 


aj 


展示 信息 的 界 


$./bin/stop-hbase.sh 


停止 操作 需要 一 些 时 间 ， 而 且 集 群 越 大 ， 停 的 时 间 可 能 会 越 长 。 如 果 正 在 运行 一 个 分 布 式 的 操作 ， 要 确认 在 Hbase 彻 底 停止 之 前 ，Hadoop 不 能 停止。 


可 以 使 用 如 下 命令 单独 启动 或 停止 ZooKeeper 而 不 启动 Hbase: 


${HBASE HOME}/bin/hbase-daemons.sh (start, stop) zookeeper 


(8) 验证 安装 


可 以 使 用 ps 命令 查看 进程 ， 在 HMaster 上 : 


8371 HMaster 
8314 HQuorumPeer 


在 RegionServer 节 点 上 : 


4256 HRegionServer 
4594 HQuorumPeer 


2.3 HBaseffjWeb UI 


2-1 列 出 了 集群 的 一 些 关键 信息 ， 这 些 信息 包括 HBase 的 版 本 、ZooKeeper 集 群 的 主机 列表 、HBase 根 目录 等 。 


IR] 


通过 HMaster 的 60010 端 口 可 以 查看 HBase 的 Web UI 页 面 ， 


aster: localhost:46539 


Description 
HBase Version [0.94.18, r1577788 HBase version and revision 


HBase Compiled * i ar 1504:46:47 UTC 2014, When HBase version was compiled and by whom 


Hadoop Version | 1.0.4, r1393290 Hadoop version and revision 


Hadoop Compiled AR RO When Hadoop version was compiled and by whom 
HBase Root i 
Directory [tle me/mengrin/nbase [Location of HBase home directory 


Zookeeper Quorum |localhost:2181 panao of all registered ZK servers. For more, see zk 


图 2-1 HBase Web UI 中 的 属性 部 分 


图 2-2 列 举 出 了 目前 HBase 上 有 哪些 表 及 表 的 一 些 基 本 信息 ， 其 中 -ROOT- 和 .META. 表 是 永远 存在 且 成 功 加 载 的 ， 如 果 这 两 张 表 加 载 不 成 功 ， 那 么 集群 虽然 已 经 启动 ， 但 是 却 无 法 正常 读 写 数 据 。 


— 40 | equestsPerSecond-0, numberOfOnlineRegions-2, 
AA ——— 06:19:37 PDT 2014 [usedHeapMB-41, maxHeapMB -997 


equestsPerSecond-0, numberOfOnlineRegions-2 


Load is requests per second and count of regions loaded 


Dead Region Servers 


图 2-2 HBase Web UI 中 表 的 描述 部 分 


图 2-2 下 方 列举 出 了 集群 中 的 RegionServer 主 机 ， 后 面包 含 了 每 台 Regionserver 的 重要 信息 ， 包 括 每 秒 请 求 次 数 、Region 的 数量 、 当 前 使 用 的 JVM 堆 大 小 等 信息 。 


2.4 HBase Shell LEH 


可 以 通过 命令 行 工具 连接 HBase， 从 而 对 HBase 中 的 表 进 行 基本 操作 ， 命 令 如 下 : 


$ ./bin/hbase shell 


连接 成 功 后 将 进入 HBase 的 执行 环境 : 


HBase Shell; enter 'help«RETURN»' for list of supported commands. 
Type "exit«RETURN»" to leave the HBase Shell 

Version 0.94.18, r1577788, Sat Mar 15 04: 46: 47 UTC 2014 

hbase (main) : 001: 0» 


输入 help， 然 后 按 回 车 键 可 以 看 到 命令 的 详细 帮助 信息 ， 需 要 注意 的 是 ， 在 使 用 命令 引用 到 表 名 、 行 和 列 时 需要 加 单 引号 。 创 建 一 个 名 为 test 的 表 ， 这 个 表 只 有 一 个 column family ( 列 族 ) 为 cf。 然 后 
列 出 所 有 的 表 来 检查 创建 情况 ， 之 后 插入 一 些 数据 ， 命 令 如 下 : 


hbase (main) : 003: 0» create 'test', ‘cf" 
0 row (s) in 1.2200 seconds 

hbase (main) : 003: 0> list 'table" 

test 

1 row (s) in 0.0550 seconds 


hbase (main) : 004: 0» put 'test', ‘rowl'‘', ‘cf: a' ^"'valuel" 
0 row (s) in 0.0560 seconds 
hbase (main) : 005: 0» put 'test', ‘row2', ‘cf: b' "'value2" 
0 row (s) in 0.0370 seconds 
hbase (main) : 006: 0» put 'test', "'row3' ‘cf: c' ^"'value3" 


0 row (s) in 0.0450 seconds 


以 上 命令 分 别 插入 了 三 行 数据 。 第 一 行 rowkey 为 row1， 列 为 cf:a， 值 为 value1。HBase 中 的 列 是 由 column family 前 缀 和 列 的 名 字 组 成 的 ， 以 冒号 分 隔 。 


扫描 整个 表 的 数据 使 用 scan 命 令 ， 操 作 如 下 : 

hbase (main) : 007: 0» scan ‘test" 

ROW COLUMN4CELL 

rowl column-cf: a, timestamp-1288380727188, 
row2 column-cf: b, timestamp-1288380738440, 
row3 column-cf: c, timestamp-1288380747365, 


3 row (s) in 0.0590 seconds 


获取 单行 数据 使 


get 命 令 ， 操 作 如 下 : 


value-valuel 
value-value2 
value-value3 


hbase (main) : 008: 0» get “test 
COLUMN CELL 

cf: a timestamp-1288380727188, 
1 row (s) in 0.0400 seconds 


停 用 表 使 


hbase (main) : 012: 0> disable 'test" 
0 row (s) in 1.0930 seconds 

hbase (main) : 013: 0» drop 'test' 

0 row (s) in 0.0770 seconds 


value-valuel 


disable 命 令 ， 删 除 这 个 表 可 以 通过 drop 命 令 实现 ， 此 时 数据 也 随 之 删除 ， 操 作 如 下 : 


退出 Shell 使 用 exit 命 令 : 


hbase (main) : 014: 0» exit 


2.5 ”停止 HBase 集 群 


通过 HBase 提 供 的 脚本 可 以 停止 一 个 正在 运行 中 的 集群 ， 命 令 如 下 : 


bin/stop-hbase.sh 


stopping hbasehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/ . . http: / /www.hzcourse.com/resource/readBook?path-/openresc 


读者 会 在 屏幕 上 看 到 类 似 上 面 的 输出 信息 ， 请 耐心 等 待 ， 当 HMaster 和 所 有 RegionServer 进 程 正常 退出 后 集群 将 停止 服务 。 


26 本章 小 结 


本 章 十 分 详细 地 描述 了 HBase 的 单机 模式 、 伪 分 布 式 模式 ， 以 及 分 布 式 模式 的 HBase 集 群 的 安装 和 配 
在 生产 环境 中 运行 一 定 要 搭建 完全 分 布 式 模 式 的 集群 。 除 此 之 外 还 给 出 了 安装 HBase 集 群 的 前 期 准备 工作 ， 读 者 在 安装 前 务必 仔细 检查 ， 有 些 时 候 集群 安装 的 不 成 功 往往 是 


足 。 


始 使 用 HBase 或 者 做 一 些 开发 工作 的 读者 ， 可 以 搭建 一 个 单机 模式 的 HBase， 而 


。 对 于 想 快速 


为 这 些 前 提 条 件 没有 得 到 j 


所 谓 万 事 开头 难 ， 对 于 刚 开 始 学 习 HBase 的 读者 来 说 ， 能 够 成 功 运行 一 个 集群 将 为 后 面 深入 理解 HBase 英 定 一 个 良好 的 基础 ， 因 此 我 们 希望 各 位 读者 可 以 亲自 动手 实践 一 下 。 


第 3 章 ”数据 模型 


在 开始 使 


列 必须 属于 某 一 个 列 族 。 


行 和 列 的 交叉 点 称 为 单元 格 (Cell) ， 单 元 格 是 版 本 化 的 。 身 


HBase 之 前 非常 有 必要 先 学 习 HBase 的 特性 ， 因 此 本 章 将 介绍 HBase 的 逻辑 模型 、 物 理 模型 和 访问 HBase 的 方法 等 。 和 传统 的 关系 型 数据 库 类 似 ，HBase 以 表 (Table) 的 方式 组 织 数据 ， 应 
程序 将 数据 存 入 HBase 的 表 中 。HBase 的 表 由 行 (Row) 和 列 (Column) 共同 构成 ， 与 关系 型 数据 库 不 同 的 是 HBase 有 一 个 列 族 (Column Family) 的 概念 ， 它 将 一 列 或 者 多 列 组 织 在 一 起 ，HBase 的 


元 格 的 内 容 也 就 是 列 的 值 是 不 可 分 割 的 字 节 数组 ， 以 二 进 制 形式 存储 。HBase 没 有 数据 类 型 ， 任 何 列 值 都 被 转换 成 字 节 数组 进行 存储 。 


HBase 表 中 的 行 是 通过 行 键 (Rowkey) 进行 区 分 的 ， 行 键 也 是 用 来 唯一 确定 一 行 的 标识 ， 不 同 的 行 键 代表 不 同 的 行 ， 行 键 也 是 一 段 字 节 数 组 ， 不 论 是 字符 串 还 是 数字 ， 最 终 都 会 被 转换 成 字 节 数 组 进行 存 


储 。HBase 表 中 的 行 是 按 Rowkey 排 序 的 ， 排 序 方式 采用 字典 顺序 ， 所 有 表 中 的 行 都 必须 要 有 Rowkey。 


同时 HBase 是 一 种 面向 列 的 分 布 式 的 数据 库 ， 其 物理 模型 和 逻辑 模型 与 传统 的 关系 型 数据 库 有 很 大 的 不 同 。 


3.1 ”两 类 数据 模型 


本 节 将 从 逻辑 模型 和 物理 模型 两 方面 来 了 解 HBase 的 数据 模型 ， 表 是 HBase 表 达 数 所 


本 操作 以 及 HBase 实 际 存储 数据 的 一 些 特点 ， 为 后 


H 


的 学 习 打 好 基础 。 


3.1.1 ”逻辑 模型 


HBase 是 一 个 类 似 GoogleBigTable 的 


Te os Gd 


我 们 将 详细 讲述 HBase 数 据 模型 中 的 一 些 重要 概念 。 


居 的 逻辑 组 织 方式 ， 而 基于 列 的 存储 则 是 数据 在 底层 的 组 织 方式 。 本 节 将 首先 学 习 关于 逻辑 模型 的 一 些 重要 概念 及 基 


居 库 ， 大 部 分 特性 和 BigTable 相 同 ， 可 以 理解 为 是 一 个 稀 玻 的 、 长 期 存储 的 、 多 维度 的 和 排序 的 映射 表 ， 表 中 的 每 一 行 可 以 有 不 同 的 列 。 与 关系 型 数 
据 库 不 同 ， 关 系 型 数据 库 要 求 表 在 被 创建 时 明确 定义 列 以 及 列 的 数据 类 型 而 HBase 的 同一 个 表 的 记录 可 以 有 不 一 样 的 列 。 


HBase 中 最 基本 的 单位 是 列 ， 一 列 或 者 多 列 构成 了 行 ， 行 有 行 键 (Rowkey) ， 每 一 行 的 行 键 都 是 唯一 的 ， 相 同行 键 的 插入 操作 被 认为 是 对 同一 行 的 操作 ， 也 就 是 说 如 果 做 了 两 次 写 入 操作 ， 而 行 键 是 同 
一 个 ， 那 么 后 面 的 操作 可 以 认为 是 对 该 行 的 某 些 列 的 更 新 操作 。 


HBase 中 的 一 个 表 有 若干 行 ， 每 行 有 很 多 列 ， 列 中 的 值 有 多 个 版 本 ， 每 个 版 本 的 值 称 为 一 个 单元 格 ， 每 个 单元 存储 的 是 不 同时 刻 该 列 的 值 。 图 3-1 是 Google 的 BigTable 论 文中 的 Webtable 表 的 逻辑 模 
型 ， 由 于 HBase 被 认为 是 BigTable 的 开源 实现 ， 所 以 该 图 对 HBase 完 全 适用 ， 表 名 为 Webtable， 包 含 两 个 列 族 : contents 和 anchor。 在 该 实例 中 ， 列 族 anchor 有 两 个 列 (anchor:cssnsi.com 和 
anchor:my.look.ca) ， 列 族 contents 仅 有 一 个 列 contents:html。 


其 中 ， 列 名 是 由 列 族 前 缀 和 修饰 符 (Qualifier) 连接 而 成 ， 分 隔 符 是 英文 冒号 。 例 如 ， 列 anchor:my.look.ca 是 列 族 anchor 前 缀 和 修饰 符 my.look.ca 组 成 。 所 以 在 提 到 HBase 的 列 的 时 候 应 该 用 “ 列 族 
前 缀 + 修饰 符 ” 的 方式 才 准 确 。 


如 图 3-1 所 示 ， 在 表 Webtable 的 逻辑 模型 中 ， 所 有 的 列 族 和 列 都 紧凑 在 一 起 ， 其 中 并 没有 附带 物理 存储 方式 的 概念 。 该 逻辑 视 


D 


是 为 了 使 读者 更 好 地 、 更 直观 地 理解 HBase 的 数据 模型 ， 并 不 代表 实际 


的 数据 存储 也 是 这 种 形式 。 
"contents:" "anchor:ennsi.com" — "anchor:my.look.ca" 
I 
1 | 
"com.cnn.www" E" to "CNN.com" ts 
Ea ' 
sl 


图 3-1 Webtable 的 逻辑 模型 


如 果 熟 悉 Java 语 言 里 的 Map 数 据 结构 ， 可 以 把 HBase 理 解 为 这 种 结构 的 无 限 谋 套 版 本 。 


3.1.2 ”物理 模型 


虽然 在 逻辑 模型 中 ， 表 可 以 被 看 成 一 个 稀疏 的 行 的 集合 。 但 在 物理 上 ， 表 是 按 列 分 开 存 储 的 。HBase 的 列 是 按 列 族 分 组 的 ，HFile 是 面向 列 的 ， 存 放行 的 不 同 列 的 物理 文件 ， 一 个 列 族 的 数据 存放 在 多 个 
HFile 中 ， 最 重要 的 是 一 个 列 族 的 数据 会 被 同一 个 Region 管 理 ， 物 理 上 存放 在 一 起 。Region 是 管理 HFile 的 一 种 机 制 ， 这 个 将 会 在 后 面 讨论 。 这 种 物理 上 存储 的 不 同 可 以 从 下 面 的 物理 视图 中 直观 看 出 ， 如 表 
3-1 和 表 3-2 所 示 。 表 3-1 中 展示 了 列 族 anchor 的 集中 存储 。 表 3-2 中 展示 了 列 族 contents 的 集中 存储 。 


表 3-1 列 族 anchor 存 储 模型 
x 
tT i$ 


com.cnn.wWwW 


列 族 和 单元 格 值 
anchor:cnnsi.com = "CNN" 


com.cnn.www anchor:my.look.ca = "CNN.com" 
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m 列 族 和 单元 格 值 
com.cnn.www contents:html = "<html>..." 
com.cnn.www contents:html = "<html>..." 
com.cnn.www contents:html = "<html>..." 


HBase 的 表 被 设计 成 可 以 不 禁用 表 而 随时 加 入 新 的 列 ， 因 此 可 以 将 新 列 直 接 加 入 一 个 列 族 而 无 须 声明 。 


Ors 在 上 面 的 逻辑 模型 中 ， 空 白 Cell 在 物理 上 是 不 存储 的 ， 因 此 ， 若 一 个 请 求 为 要 获取 t8 时 间 的 contents:html， 它 的 结果 就 是 空 。 相 类 似 ， 若 请 求 为 获取 (9 时间 的 anchormy.look.ca， 结 果 也 是 空 。 但 


是 ， 如 果 不 指 明 时 间 ， 将 会 返回 最 新 时 间 的 行 ， 每 个 最 新 的 都 会 返回 。 例 如 ， 假 设 请 求 获取 行 键 为 "com.cnn.www" 的 各 列 的 值 ， 如 果 没 有 指明 时 间 戳 ， 返 回 的 结果 是 t6 下 的 contents:html、t9 下 的 
anchor:cnnsi.com 和 t8 下 的 anchor:my.look.ca 所 对 应 的 值 。 


3.2 ”数据 模型 的 重要 概念 


HBase 是 一 种 列 式 存储 的 分 布 式 数据 库 ， 其 核心 概念 是 表 (Table) 。 与 传统 的 关系 型 数据 库 一 样 ， 表 由 行 和 列 组 成 ， 但 HBase 同 一 列 可 以 存储 不 同时 刻 的 值 ， 同 时 多 个 列 可 以 组 成 一 个 列 族 (Column 
Family) ， 这 种 组 织 形式 是 出 于 存 取 性 能 考虑 的 。 理 解 HBase 的 这 些 概念 是 很 重要 的 ， 因 为 数据 模型 设计 的 好 坏 将 直接 影响 你 的 查询 性 能 。 本 节 我 们 将 讨论 最 重要 的 概念 。 


324 x 


在 HBase 中 数据 以 表 的 形式 存储 。 使 用 表 的 主要 原因 是 把 某 些 列 组 织 起 来 一 起 访问 ， 同 一 个 表 中 的 数据 通常 是 相关 的 ， 通 过 列 族 进 一 步 把 一 些 列 组 织 在 一 起 进行 访问 。 用 户 可 以 通过 命令 行 或 Java API 
来 创建 表 。 表 名 通常 使 用 Java String 类 型 或 byte[] (二 进 制 数组 ) 表示 ， 表 名 作为 HDFS 存 储 路 径 的 一 部 分 来 使 用 ， 因 此 必须 要 符合 文件 名 规范 ， 所 以 构成 表 名 的 字符 是 有 限制 的 。 可 以 直接 查看 底层 存储 系 
统 ， 在 HDFS 中 可 以 看 到 每 个 表 的 表 名 都 作为 独立 的 目录 结构 ， 在 某 些 情况 下 ， 用 户 可 能 需要 查看 这 部 分 信息 。 


HBase 列 式 存储 格式 允许 用 户 存储 大 量 的 信息 到 相同 的 表 中 ， 而 在 RDBMS 模 型 中 ， 大 量 信息 则 需要 切 分 成 多 个 表 存 储 。 通 常 的 数据 库 规范 规则 不 适用 于 HBase， 因 此 HBase 中 表 的 数量 相对 较 少 。 


E: 


虽然 理论 上 HBase 的 表 是 由 行 和 列 组 成 的 ， 但 是 从 物理 结构 上 看 ， 表 存储 在 不 同 的 分 区 ， 即 不 同 的 Region。 每 个 Region 只 在 一 个 RegionServer 中 提供 服务 ， 而 Region 直 接 向 客户 端 提供 存储 和 读 取 服 


与 传统 的 关系 型 数据 库 一 样 ，HBase 提 供 了 命令 行 创建 表 ， 创 建 表 时 只 需要 指定 表 名 和 至 少 一 个 列 族 。 列 族 影响 表 的 物理 存储 结构 ， 创 建 表 后 列 族 还 可 以 更 改 ， 但 是 比较 麻烦 。 


这 就 是 HBase 表 中 的 全 部 ， 和 传统 关系 型 数据 库 不 同 ，HBase 的 表 没有 列 定义 ， 没 有 类 型 ， 这 就 是 HBase 被 称 为 无 模式 数据 库 的 原因 。 


如 何 与 HBase 建 立 连 接 呢 ? 可 以 使 用 Shell， 或 者 通过 Java AP1， 与 使 用 JDBC 或 ODBC 访 问 关 系 型 数据 库 不 同 ， 访 问 HBase 不 需要 用 户 名 和 密码 ， 没 有 Schema; 将 hbase-site.xm| 配 置 文件 复制 一 份 到 
自己 的 工程 中 ，HBase API 会 读 取 配置 文件 完成 对 HBase 的 连接 。 创 建 连接 是 一 项 非常 消耗 资源 的 工作 ，HBase 为 我 们 提供 了 一 个 连接 池 ， 可 以 更 好 地 管理 资源 重用 。 


3.22 行 键 


行 键 ， 即 Rowkey， 是 HBase 中 最 为 重要 的 概念 之 一 ， 在 本 书 4.3 节 会 详细 讲解 关于 行 键 的 设计 原则 。 行 键 是 不 可 分 割 的 字 节 数组 。 行 键 是 按 字典 排序 由 低 到 高 存储 在 表 中 的 ， 以 一 个 空 的 数组 来 标识 表 
空间 的 起 始 或 者 结尾 。 图 3-2 展 示 了 行 键 的 排列 规则 。 


zkpk@master:~/hbase-0.94.21 
File Edit View Search Terminal Help 
hbase(main):001:0» scan 'tablel' 
ROW COLUMN+CELL 
row-1 column-zcfl:val, timestamp-1408500395210, value=v1 
row-10 columnzcfl:val, timestamp-1408500428953, value-v10 


row-11 columnzcfl:val, timestamp-1408500452804, value-vll 

row-2 columnzcfl:val, timestamp-1408500417699, valuezv2 

row-22 column2cfl:val, timestamp-1408500477549, valuezv22 

row-3 columnzcfl:val, timestamp-1408500423321, value-zv3 

row-abc columnzcfl:val, timestamp-z1408500491802, value=vabc 
7 row(s) in 1.3340 seconds 


H3-2 ” 行 键 按照 字典 序 进 行 排序 


这 可 能 和 你 预期 的 顺序 不 太一 样 ， 在 字典 序 中 ， 数 据 按照 二 进 制 字 节 从 左 至 右 逐 一 对 比 形成 最 终 的 次 序 。 例 如 row-1 小 于 row-2， 无 论 后 面 如 何 ，row-1 都 排 在 row-2 之 前 。 


在 HBase 中 行 键 是 唯一 的 索引 ， 不 过 在 新 版 本 的 HBase 中 考虑 了 对 辅助 索引 的 支持 。 


为 了 高 效 检索 数据 ， 应 该 仔细 设计 Rowkey 以 获得 最 高 的 查询 性 能 : 首先 Rowkey 被 郊 余 存 储 ， 所 以 长 度 不 宜 过 长 ， 过 长 的 Rowkey 将 会 占用 大 量 的 空间 同时 会 降低 检索 效率 ;其 次 Rowkey 应 该 尽量 分 
布 均 匀 ， 这 样 不 会 产生 热点 现象 ; 最 后 是 Rowkey 唯 一 原则 ， 必 须 在 设计 上 保证 其 唯一 性 。 


在 4.3 节 将 学 习 Rowkey 的 设计 ， 针 对 不 同 的 场景 Rowkey 需 要 有 不 同 的 设计 以 提高 检索 的 效率 。 


3.2.3 jk 


HBase 中 的 列 族 是 一 些 列 的 集合 。 一 个 列 族 中 所 有 列 成 员 有 着 相同 的 前 缀 。 比 如 ， 列 courses:history 和 courses:math 都 是 列 族 courses 的 成 员 。 冒 号 C) 是 列 族 的 分 隔 符 ， 用 来 区 分 列 族 前 缀 和 列 名 。 
Column 前 缀 必须 是 可 打印 的 字符 ， 剩 下 的 部 分 ( 称 为 Column Qualifier) ， 可 以 由 任意 字 节 数组 组 成 。 


在 物理 上 ， 一 个 列 族 的 成 员 在 文件 系统 上 都 是 存储 在 一 起 的 。 因 为 存储 优化 都 是 针对 列 族 级 别 的 ， 这 就 意味 着 ， 一 个 列 族 的 所 有 成 员 是 通过 相同 的 方式 访问 的 。 


在 创建 表 的 时 候 至 少 要 指定 一 个 列 族 ， 新 的 列 族 可 以 随后 按 需 、 动 态 地 加 入 ， 但 是 修改 列 族 要 先 停 用 表 。 应 该 将 经 常 一 起 查询 的 列 放 在 一 个 列 族 中 ， 合 理 划 分 列 族 将 减少 查询 时 加 载 到 缓存 的 数据 ， 提 
高 查询 的 效率 ， 但 也 不 要 有 太 多 的 列 族 ， 因 为 跨 列 族 访 问 是 非常 低 效 的 。 


3.24 单元 格 


HBase 中 的 单元 格 由 行 键 、 列 族 、 列 、 时 间 戳 唯一 确定 。 单 元 格 的 内 容 是 不 可 分 割 的 字 节 数 组 。 每 个 单元 格 都 保存 着 同一 份 数据 的 多 个 版 本 ， 不 同时 间 版 本 的 数据 按照 时 间 顺 序 倒序 排序 ， 最 新 时 间 的 
数据 排 在 最 前 面 ， 时 间 戳 是 64 位 的 整数 ， 可 以 由 客户 端 在 写 入 数据 时 赋值 ， 也 可 以 由 RegionServer 自 动 赋值 。 


3.3 ”数据 模型 的 操作 


HBase 对 数据 模型 的 4 个 主要 操作 包括 Get、Put、Scan 和 Delete。 通 过 HTable 实 例 进行 操作 ， 用 户 可 以 完成 向 HBase 存 储 和 检索 数据 ， 以 及 删除 无 效 数据 之 类 的 操作 。 


所 有 修改 数据 的 操作 都 保证 行 级 别 的 原子 性 ， 多 个 客户 端 或 线程 对 同一 行 的 读 写 操作 都 不 会 影响 该 行 数据 的 原子 性 ， 要 么 读 到 最 新 的 数据 ， 要 么 等 待 系统 允许 写 入 该 行 的 修改 。 


创建 HTable 实 例 是 有 代价 的 。 每 个 实例 都 需要 扫描 .META. 表 ， 以 检查 该 表 是 否 存 在 ， 是 否 可 用 。 此 外 还 有 一 些 其 他 操作 ， 这 些 检查 和 操作 导致 实例 调用 非常 耗 时 。 因 此 ， 推 荐 用 户 只 创建 一 次 HTable 
实例 ， 而 且 是 每 个 线程 创建 一 个 ， 如 果 用 户 需要 使 用 多 个 HTable 实 例 ， 应 考虑 使 用 HTablePool 类 ， 它 可 以 复 用 多 个 HTable 实 例 。 


3.3.4 读 Get 


Get 操 作 是 指 从 客户 端 API 中 获取 已 存储 数据 的 方法 。HTable 类 中 提供 了 get() 方法 ， 同 时 还 有 与 之 对 应 的 Get 类 ，Get 操 作 返 回 一 行 或 多 行 数据 。 


get () 方法 默认 一 次 取 回 该 行 全 部 列 的 数据 ， 我 们 可 以 限定 只 取 回 某 个 列 族 对 应 的 列 的 数据 ， 或 者 进一步 限定 只 取 回 某 些 列 的 数据 ， 之 前 也 说 过 HBase 的 列 的 数据 是 多 版 本 的 ， 我 们 可 以 限定 取 回 该 列 
全 部 版 本 的 数据 或 者 限定 只 取 回 最 新 的 一 个 或 几 个 版 本 的 数据 。 


当 用 户 使 用 get () 方法 获取 数据 时 ，HBase 返 回 的 结果 包含 所 有 匹配 的 单元 格 数据 ， 这 些 数据 将 被 封装 在 一 个 Result 实 例 中 返 
定 返 回 值 ， 这 些 值 包括 列 族 、 列 限定 符 和 时 间 惟 等。 
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Result 类 提供 的 方法 ， 可 以 从 服务 器 端 获取 匹配 指定 行 的 特 


3.3.2 Put 


Put 操 作 要 么 向 表 增 加 新 行 (如 果 Key 是 新 的 ) 或 更 新 行 (如 果 Key 已 经 存在 ) 。 可 以 一 次 向 表 中 插入 一 行 数据 ， 也 可 以 一 次 操作 一 个 集合 ， 同 时 向 表 中 写 入 多 行 数据 。 如 果 要 频繁 修改 某 些 行 的 数据 ， 
户 应 该 创建 一 个 RowLock 实 例 来 防止 其 他 用 户 对 该 行 数据 进行 修改 。 


Bim, 


Put 操 作 每 次 都 会 发 起 一 次 到 服务 器 的 RPC 操 作 ， 如 果 有 大 量 的 数据 要 写 入 表 中 ， 就 会 有 数 干 次 RPC 操 作 ， 这 样 效 率 很 低 。HBase 客 户 端 有 一 个 缓冲 区 ， 负 责 将 数据 批量 地 仅 通过 一 次 RPC 操 作 发 送 到 服 
这 样 可 大 大 提高 写 入 性 能 ， 默 认 客 户 端 写 缓冲 区 是 关闭 的 ， 需 要 显 式 打开 该 选项 。 


当 将 一 个 Put 集 合 提交 到 服务 端的 时 候 ， 可 能 会 出 现 部 分 成 功 部 分 失败 的 情况 ， 失 败 的 数据 会 被 保存 到 缓存 区 中 进行 重 试 。 


HBase 还 提供 了 一 个 compare-and-set 操 作 ， 这 个 操作 先进 行 检查 ， 条 件 满足 后 再 执行 ， 这 个 操作 对 于 行 是 原子 性 的 。 


HBase 没 有 Update 操 作 ， 是 通过 Put 操 作 完成 对 数据 的 修改 的 。 


3.3.3 ”扫描 Scan 


止 。 


Scan 操作 人 允许 多 行 特定 属性 迭代 ， 其 使 用 与 get O 方法 非常 类 似 。 工 作 方式 类 似 于 和 迭代 器 ， 可 以 指定 startRow 参 数 来 定义 扫描 读 取 HBase 表 的 起 始 行 键 ， 同 时 可 选 stopRow 人 参数 来 限定 读 取 到 何 处 停 


在 创建 Scan 实例 之 后 ， 用 户 可 以 增加 更 多 的 限定 条 件 ， 没 有 参数 将 扫描 整个 表 ， 包 括 所 有 列 族 以 及 所 有 列 ， 可 以 用 多 种 方法 限定 读 取 的 数据 。 


扫描 操作 执行 后 将 得 到 执行 结果 ， 此 结果 被 封装 在 一 个 ResultScanner 实 例 中 。 下 面 是 一 个 基于 HTable 表 实例 的 示例 : 假设 表 有 几 个 行 键 值 为 “row1”、“row2”、“row3”， 还 有 一 些 行 键 值 


“abc1”、“abc2” 和 “abc3”。 下 面 的 代码 展示 了 startRow 和 stopRow 可 以 应 用 到 一 个 Scan 实例 ， 以 返回 “row” 开 头 的 行 。 


Configuration conf = HBaseConfiguration.create () ; 

HTable htable = new HTable (conf, "tablel") ; // instantiate HTable 
Scan scan = new Scan () ; 

scan.addColumn (Bytes.toBytes ("cf") , Bytes.toBytes (“attr”) ) ; 
scan.setStartRow ( Bytes.toBytes ("row") ) ; // start key is inclusive 


scan.setStopRow ( Bytes.toBytes ("row" + (char) 0) ); // stop key is exclusive 
ResultScanner rs = htable.getScanner (scan) ; 
try { 
for (Result r = rs.next O ; r !- null; r= rs.next ()) 1{ 
// process resulthttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
} finally ( 
rs.close () ; // always close the ResultScanner! 


} 


3.3.4 删除 Delete 


Delete 用 于 从 表 中 删除 数据 。HTable 除 了 提供 删除 方法 delete () 外 ， 还 有 一 个 与 之 对 应 的 类 Delete， 用 户 可 以 通过 多 种 方法 限定 要 删除 的 列 。 


与 关系 型 数据 库 的 Delete 操 作 不 同 ，HBase 的 Delete 操 作 可 以 指定 删除 某 个 列 族 或 者 某 个 列 ， 或 者 指定 某 个 时 间 戳 ， 删 除 比 这 个 时 间 早 的 数据 。 


HBase 的 Delete 操 作 并 不 是 真正 地 从 磁盘 删除 数据 。 而 是 通过 创建 墓碑 (tombstones) 标志 进行 处 理 。 这 些 墓碑 标记 的 值 和 小 于 该 时 间 版 本 的 单元 格 在 大 合并 (major compact) 时 被 清除 。 关 于 这 


一 点 可 以 参考 9.2.4 节 ， 该 节 详细 阐述 了 大 合并 操作 时 HBase 发 生 的 行为 。 


3.4 数据 模型 的 特殊 属性 


1a 


讨论 完 HBase 的 基本 概念 ， 我 们 来 学 习 一 下 它 特有 的 功能 。 这 些 常常 使 人 感到 困惑 ， 对 使 用 过 关系 型 数据 库 的 读者 来 说 尤为 如 此 。HBase 的 这 些 特 性 使 得 完成 某 些 功 能 更 加 方便 ， 同 时 它 也 存在 一 些 有 


待 完善 的 地 方 ， 这 也 正 是 HBase 在 大 力 改进 的 地 方 。 


3.4.1 版 本 


Rowkey、Column ( 列 族 和 列 ) 、Version 组 合 在 一 起 称 为 HBase 中 的 一 个 单元 格 。 有 可 能 会 有 很 多 单元 的 行 和 列 是 相同 的 ， 要 区 分 不 同 的 单元 可 以 使 用 版 本 。 


Rowkey 和 Column 的 值 是 用 字 节 数组 表示 的 ，Version 则 是 用 一 个 长 整 型 表示 的 。 这 个 长 整 型 值 是 使 用 java.util.Date.getTime () 或 者 System.currentTimeMillis () 产生 的 ， 这 就 意味 着 它 的 含义 


是 “当前 时 间 和 1970-01-01 UTC 的 时 间 差 ， 单 位 毫秒 ”。 

在 HBase 中 ， 版 本 是 按 倒 序 排列 的 ， 因 此 当 读 取 这 个 文件 的 时 候 ， 最 先 找 到 的 是 最 近 的 版 本 。 关 于 版 本 的 一 些 常见 问题 主要 有 如 下 两 个 : 

“ 如 果 有 多 个 包含 版 本 的 写 操作 同时 发 起 ，HBase 会 保存 全 部 还 是 会 保持 最 新 的 一 个 ? 

“ 可 以 发 起 包含 版 本 的 写 操 作 ， 但 是 它们 的 版 本 顺序 和 操作 顺序 相反 吗 ? 

下 面 介绍 一 下 在 HBase 中 版 本 是 如 何 工 作 的 。 

1. 含 版 本 的 操作 

这 里 详细 讲解 如 何在 HBase 的 各 个 主要 操作 中 使 用 版 本 属性 。 

(1) Get/Scan 

Get 是 在 Scan 的 基础 上 实现 的 。Get 同 样 可 以 用 Scan 来 描述 。 在 默认 情况 下 ， 如 果 没有 指定 版 本 ， 一 旦 使 用 Get 操 作 ， 会 返回 最 近 版 本 的 Cell (该 Cell 可 能 是 最 新 写 入 的 ， 但 不 能 保证 一 定 是 ) 。 默 认 的 
操作 可 以 这 样 修改 : 


如 果 想 要 返回 两 个 以 上 的 版 本 ， 可 以 使 用 Get 类 的 setMaxVersions () ， 如 果 想 要 返回 的 版 本 不 只 是 最 近 的 ， 可 以 使 用 Get 类 的 setTimeRange () 。 


要 想 查 询 的 最 新 版 本 小 于 或 等 于 给 定 的 这 个 值 ， 这 就 意味 着 给 定 的 “最 近 ” 的 值 可 以 是 某 一 个 时 间 点 。 可 以 使 用 0 到 想 要 的 时 间 来 设置 ， 还 要 把 Max Versions 设 置 为 1。 


默认 Get 例 子 如 下 ， 其 中 的 Get 操 作 会 只 获得 最 新 的 一 个 版 本 。 


Get get = new Get (Bytes.toBytes (“rowl”) ) ; 

Result r = htable.get (get) ; 

byte[] b = r.getValue (Bytes.toBytes ("cf") , Bytes.toBytes (“attr”) ) ; 
// returns current version of value 


含有 版 本 的 Get 例 子 如 下 ， 其 中 的 Get 操 作 会 获得 最 近 的 3 个 版 本 。 


Get get = new Get (Bytes.toBytes ("rowl") ) ; 

get.setMaxVersions (3); // will return last 3 versions of row 

Result r = htable.get (get) ; 

byte[] b = r.getValue (Bytes.toBytes ("cf") , Bytes.toBytes (“attr”) ) ; 
// returns current version of value 

List«KeyValue» kv = r.getColumn (Bytes.toBytes ("cf") , Bytes.toBytes (“attr”) ) ; 
// returns all versions of this column 


(2) Put 


—^TPutiES73—"^Cell8Jz&—^ MAS, EALAGEFHSÁBURJIBIEX, SÁSAtBSILAE CHER EEHBSIBEER, AMSA EHCEIACREAETKOK, RARE. HS— DEAGRUS, WUSURÉ 
SE ACelliRoewkey, Column Family, Column Qulifier 和 Version 必 须 和 原来 的 完全 相同 。 


下 面 是 不 指明 版 本 的 例子 ， 其 中 的 Put 操 作 不 指明 版 本 ， 所 以 HBase 会 将 当前 时 间作 为 版 本 。 


Put put = new Put (Bytes.toBytes (row) ) ; 
put.add (Bytes.toBytes ("cf") , Bytes.toBytes ("attrl") , Bytes.toBytes ( data) ) ; 
htable.put (put) ; 


下 面 是 指明 版 本 的 例子 ， 其 中 的 Put 操 作 指明 了 版 本 。 


Put put = new Put ( Bytes.toBytes (row ) ) ; 

long explicitTimeInMs = 555; // just an example 

put.add (Bytes.toBytes ("cf") , Bytes.toBytes ("attrl") , explicitTimeInMs, Bytes.toBytes (data) ) ; 
htable.put (put) ; 


(3) Delete 
内 部 删除 标记 有 三 种 不 同类 型 : 
` Delete: 删除 列 的 指定 版 本 。 
: Delete Column: 删除 列 的 所 有 版 本 。 
: Delete Family: 删除 特定 列 族 所 有 列 。 


当 删 除 一 行 时 ，HBase 将 内 部 为 每 个 列 族 创建 墓碑 ( 非 每 个 单独 列 ) 标记 。 


删除 操作 的 实现 是 创建 一 个 墓碑 标记 。 例 如 ， 要 删除 一 个 版 本 ，HBase 不 会 去 改 那些 数据 ， 数 据 不 会 立即 从 文件 中 删除 。 它 使 用 删除 标记 来 屏蔽 掉 这 些 值 。 如 果 被 标记 的 是 最 新 一 个 版 本 的 数据 ， 就 意 
味 着 这 一 行 中 的 所 有 数据 都 会 被 删除 。 


2. 现 有 的 限制 
关于 版 本 还 有 一 些 未 实现 的 功能 ， 计 划 在 以 后 的 版 本 中 实现 。 


(1) 删除 标记 后 错误 读 取 新 数据 


删除 标记 操作 可 能 会 标记 其 后 Put 的 数据 。 注 意 ， 在 写 下 一 个 墓碑 标记 后 ， 只 有 下 一 个 主 合并 (major compact) 操作 发 起 之 后 ， 墓 碑 标记 才 会 清除 。 假 设 删 除 所 有 小 于 等 于 时 间 T 的 数据 ， 但 之 后 又 执 
行 了 一 个 Put 操 作 ， 其 时 间 戳 小 于 等 于 ， 那 么 就 算 这 个 Put 发 生 在 删除 操作 之 后 ， 该 数据 也 会 被 打上 墓碑 标记 。 这 个 Put 并 不 会 失败 ， 但 你 做 Get 操 作 时 ， 则 无 法 查询 刚刚 Put 进 去 的 数据 。 只 有 一 个 主 合并 
(major compact) 执行 后 ， 一 切 才 会 恢复 正常 。 所 以 使 用 一 系列 时 间 戳 一 直 增 长 的 Put 操 作 就 不 会 发 生 该 问题 。 


(2) 主 合 并 改变 查询 的 结果 


一 个 Cell 有 三 个 版 本 数据 t1、t2 和 t3，maxVersion 设 置 为 2， 当 请 求 获取 全 部 版 本 的 时 候 ， 只 会 返回 两 个 : t2 和 t3。 如 果 将 t2 和 t3 删 除 ， 就 会 返回 t1。 但 是 如 果 在 删除 之 前 ， 发 生 了 major compaction 
操作 ，t1 的 值 将 会 从 磁盘 上 被 彻底 删除 ， 结 果 是 什么 值 都 不 会 返回 了 。 


回 


3.440 排序 


Get 和 Scan 操作 返回 的 是 经 过 排序 的 数据 。 列 在 服务 器 端 也 是 字典 排序 的 ， 所 以 按照 名 称 的 字典 序 返 回 。 总 体 来 说 ， 返 回 的 数据 首先 按 行 字典 序 排序 ， 其 次 是 列 族 ， 然 后 是 列 修饰 符 (column 
戳 反 向 排序 ， 最 新 的 在 最 前 面 。 


aj 


qualifier) ， 最 后 是 时 


343 列 的 元 数据 


对 于 HBase 表 中 的 列 族 ， 除 了 KeyValue 实 例 以 外 ， 没 有 关于 元 数据 的 描述 ，KeyValue 对 象 表示 HBase 的 最 小 单位 是 Cell。HBase 的 表 不 仅 在 一 行 中 支持 很 多 列 ， 而 且 支 持 行 之 间 有 不 同 的 列 ， 所 以 需要 
单独 维护 行 和 列 之 间 的 关系 。 获 取 列 族 的 完整 列 名 的 唯一 方法 是 处 理 所 有 行 。 


344 ”连接 查询 


HBase 是 否 支持 连接 查询 ， 即 Join 查 询 ， 是 一 个 常见 问题 。 简 单 来 说 是 不 支持 ， 至 少 不 像 传统 RDBMS 那 样 支持 。 正 如 前 面 描述 的 ， 读 数据 模型 只 有 Get 和 Scan 两 种 操作 。 但 这 并 不 表示 Join 查 询 不 能 
应 用 程序 中 使 用 ， 只 是 必须 用 户 自 己 实现 。 一 般 来 讲 ， 实 现 方法 有 两 种 : 要 么 写 入 HBase 的 时 候 已 经 做 好 连接 ; 要 么 查询 表 并 在 应 用 层 实现 连接 。 哪 个 更 好 ?依赖 于 准备 做 什么 ， 所 以 没有 一 个 准确 的 答案 
适合 所 有 情况 。 


34.5 ”计数 器 


IncrementColumnValue (简称 ICV) 是 HBase 的 计数 器 ， 可 以 使 用 它 完成 一 些 诸如 计算 页 面 浏 览 量 (PV) 的 操作 。 如 果 没 有 ICV， 则 需要 首先 读 出 HBase 单 元 格 中 的 值 ， 然 后 加 1 再 存 入 。1CV 操 作 发 
生 在 RegionServer 上 ， 而 不 是 在 客户 端 ， 所 以 速度 快 ， 使 用 方式 也 没有 那么 烦琐 。 当 其 他 客户 端 也 在 访问 同一 个 单元 格 时 ， 可 以 避免 出 现 不 一 致 的 情况 。 可 以 把 ICV 等 同 于 java 的 
AtomicLong.addAndGet () 方法 。 如 果 想 了 解 计数 器 的 详细 用 法 请 阅读 10.2 节 。 


346 ”原子 操作 


类 似 Java 的 原子 类 ，HTablelnterface 接 口 也 提供 checkAndPut () 和 checkAndDelete () 方法 ， 它 们 可 以 在 维持 原子 语义 的 同时 提供 更 精细 的 控制 。 可 以 用 checkAndPut () 来 实现 上 一 节 提 到 的 


incrementColumnValue () 方法 : 


Configuration conf = HBaseConfiguration.create () ; 


HTable htable - new HTable (conf, 


"tablel"); // instantiate HTable 


Get g-new Get (Bytes.toBytes (rowkey) ) : 

Result r= htable.get (g) : 

long curVal-Bytes.toLong (r.getColumnLatest (Bytes.toBytes (family) , 
Bytes.toBytes (qualifier) ) .getValue () ) ; 


long 


incVal-curVal4l; 


Put P-new Put (Bytes.toBytes (rowkey) ) ; 


P.add (Bytes.toBytes (family) , 


Bytes.toBytes (qualifier), Bytes.toBytes (incVal) ) ; 


htable.checkAndPut (Bytes.toBytes (rowkey) , Bytes.toBytes (family) , 
Bytes.toBytes (qualifier) , Byte 


s.toBytes (curVal) , P) ; 


上 面 的 代码 虽然 有 点 长 ， 但 可 以 试 试 。 使 用 checkAndDelete () 的 方式 与 此 类 似 。 


3.4.7 事务 特性 ACID 


传统 的 SQL 数据 库 的 事务 通常 都 是 支持 ACID 的 强 事务 机 制 。 而 HBase 这 种 NoSQL 数 据 库 仅 提供 对 行 级 别 的 原子 性 保证 ， 也 就 是 说 同时 对 同一 个 Key 下 的 数据 进行 的 两 个 操作 ， 在 实际 执行 的 时 候 是 会 串 
行 的 执行 ， 保 证 了 每 一 个 KeyValue 对 不 会 被 破坏 。 


之 前 版 本 的 HBase 提 供 行 级 的 事务 ， 不 过 每 次 事务 只 能 执行 一 个 写 操作 ， 假 如 连续 地 执行 一 系列 Put、Delete 操 作 ， 那 么 这 些 操作 是 单独 一 个 个 的 事务 ， 其 整体 并 不 是 原子 性 执行 的 。 而 在 0.94.* 版 本 


kj 


同一 Region 有 多 行 原 子 性 ， 因 


可 以 实现 Put、Delete 在 同一 个 对 


有 务 中 一 起 原子 性 执行 。 


HBase 的 ACID 操 作 是 复杂 的 ， 下 面 总 结 了 ACID 操 作 的 一 些 主要 原则 ， 这 些 原则 可 以 由 点 及 面 ， 逐 步 了 解 HBase ACID 的 特征 。 


HBase 中 考虑 了 事务 (ACID) 特 | 


- 获取 数据 的 API: Get. Scan 


性 的 数据 操作 包含 以 下 这 些 : 


“ 修改 数据 的 API: Put. Batch put, Delete 


“ 多 项 操作 在 一 起 的 API: IncrementColumnValue、CheckAndPut 


1) 关于 HBaseACID 设 计 原则 如 下 : 对 于 同一 行 所 有 列 的 修改 是 原子 性 的 ， 对 于 该 行 的 Put 操 作 要 么 整体 成 功 要 么 整体 失败 。 


eo 


Kj 


oo 


出 现 "a=1，b=2，c=1 "这 种 状态 。 


9) 请 注意 批量 修改 操作 不 能 跨越 多 行 。 


10) 一 致 性 和 隔离 性 。 通 过 API 得 到 的 行 


11) 持久 性 。 所 有 可 以 读 取 到 的 数 


化 。 


2) 一 个 返回 “成 功 ” 标 志 的 操作 肯定 是 完全 成 功 的 。 
3) 一 个 返回 “失败 ”标志 的 操作 肯定 是 完全 失败 的 。 


4) 超时 的 操作 可 能 成 功 也 可 能 失败 。 但 也 不 会 是 部 分 成 功 或 失败 。 


5) 对 于 同一 行 跨 多 个 列 族 的 操作 也 遵循 上 面 的 原则 。 


此 对 一 个 多 Region 表 来 阅 ， 还 是 无 法 保证 每 次 修改 都 能 封装 为 一 个 事务 。 HBase 不 是 一 个 具备 完整 ACID 特性 的 数据 库 ， 它 只 实现 了 某 些 属性 。 


) CheckAndPut () 操作 就 像 许 多 编程 语言 的 CompareAndSet () 操作 一 样 是 原子 性 的 。 


的 数据 是 一 个 完整 的 行 ， 数 据 由 表 中 某 个 时 刻 的 数据 构成 。 


关于 HBase 的 ACID 语义 详情 可 以 参见 : http://hbase.apache.org/acid-semantics.html。 


348 IT% 


HBase API 中 put () 、delete () 、checkAndPut () 等 修改 操作 是 独立 执行 的 ， 这 意味 着 在 一 个 


特性 ， 这 个 特性 保证 了 只 有 一 个 客户 端 能 获取 一 行 数据 相应 的 锁 ， 同 时 对 该 行进 行 修改 。 


349 自动 分 区 


HBase 中 一 个 表 的 数据 会 被 划分 成 很 多 的 Region，Region 可 以 动态 扩展 并 且 HBase 保 证 Region 的 负载 均衡 。Region 实 际 上 是 行 键 排序 
Region, ， 以 减少 HDFS 上 存储 文件 的 数量 。 这 两 个 过 程 就 是 HBase 的 split 和 compaction ， 在 第 9 章 会 详细 讲解 这 两 个 操作 。 


拆 分 , 相 


刚刚 创建 的 表 只 有 一 个 Region， 随 着 数 所 


反 ， 多 个 Region 会 合并 成 一 个 较 大 


多 行 操作 不 能 保证 原子 性 ， 例 如 : 对 a、b、c 三 行进 行 操 作 ， 一 些 可 能 有 返回 ,一 些 可 能 没有 ， 在 这 种 情况 下 ，API 会 返回 一 个 对 这 三 行 操作 的 结果 列表 ， 包 括 成 功 、 失 败 或 者 超时 。 


所 有 修改 操作 是 保证 顺序 的 ， 例 如 : 如 果 一 个 写 操作 将 数据 修改 成 "a=1，b=1，c=1"， 另 一 个 修改 成 "a=2，b=2，c=2"， 那 么 行 的 状态 肯定 是 "a=1，b=1，c=1" 或 者 'a=2，b=2，c=2"， 不 可 能 


届 保 证 都 是 已 经 被 持久 化 到 磁盘 上 的 。 也 就 是 说 不 会 读 到 没有 写 到 磁盘 上 的 数据 。 所 有 返回 成 功 的 操作 的 数据 都 是 处 于 持久 化 到 磁盘 上 的 。 返 回 失败 的 都 没有 持久 


行 方式 的 执行 中 ， 对 于 每 一 行 必须 保证 行 级 别 的 操作 是 原子 性 的 。Regionserver 提 供 了 一 个 行 锁 


后 的 按 规则 分 割 的 连续 的 存储 空间 。 如 果 Region 太 大 ， 会 被 动态 


居 的 写 入 ， 达 到 Region 上 限 配 置 值 时 ，Region 会 按照 中 间 键 自动 地 拆 分 成 两 个 大 致 相等 的 Region， 每 个 Region 由 一 个 RegionServer 管 理 , 一 个 RegionServer 


处 理 器 管理 着 许多 的 Region。 图 3-3 展 示 了 多 个 Region 是 如 何 分 布 在 不 同 RegionServer 上 的 ， 注 意 每 个 Region 包 含 起 始 Rowkey 的 记录 ， 不 包含 结束 Rowkey 的 记录 。 


图 3-3 Region 物理 分 布 


每 个 RegionServer 管 理 多 少 个 Region 合 适 ? 每 个 Region 大 小 是 多 少 合适 ? 按照 现在 主流 硬件 的 配置 ， 每 个 RegionServer 可 以 管理 大 约 100~1000 个 Region， 每 个 Region 的 大 小 可 以 是 1~20GB。 


Region 的 拆 分 和 转移 是 由 HBase 自 动 完成 的 ， 用 户 感知 不 到 ， 当 一 个 RegionServer 服 务 器 发 生 故 障 时 ，Region 可 以 快速 地 被 转移 到 其 他 服务 器 上 ，Region 的 拆 分 过 程 也 是 瞬间 完成 的 。 当 Region 进 行 
拆 分 时 ， 首 先 要 将 该 Region 下 线 (offline) ， 拆 分 完成 后 新 的 Region 再 上 线 (online) ， 下 线 的 Region 暂 时 不 可 用 ， 不 过 由 于 速度 极 快 ， 通 常 不 会 对 数据 的 读 写 造成 影响 。 


3.5 “CAP 原 理 与 最 终 一 致 性 


CAP 原 理 是 数据 库 软件 的 理论 基础 ， 它 指出 对 于 一 个 数据 库 系统 来 说 ， 不 可 能 同时 满足 以 下 三 点 : 
< Zult (Consistency) : 所 有 节点 在 同一 时 间 具 有 相同 的 数据 。 

© TA (Availability) : 保证 每 个 请 求 不 管 成 功 或 者 失败 都 有 响应 。 

-PEET (Partition tolerance) : 系统 中 任意 信息 的 丢失 或 失败 不 会 影响 系统 的 继续 运作 。 


分 布 式 数据 库 系统 也 只 能 满足 三 项 中 的 两 项 。 而 由 于 当前 的 网 络 硬件 肯定 会 出 现 延 迟 丢 包 等 问题 ， 所 以 分 区 容忍 性 是 我 们 必须 需要 实现 的 ， 因 此 只 能 在 一 致 性 和 可 用 性 之 间 进 行 权衡 ， 大 多 数 的 分 布 式 
数据 库 系统 选择 了 牺牲 一 致 性 提高 可 用 性 。 如 图 3-4 所 示 是 不 同 数据 库 系统 在 这 三 方面 的 侧重 点 。 
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图 3-4 ”CAP 模型 及 各 种 数据 库 分 类 


HBase 的 设计 基于 这 样 一 些 方面 考虑 ， 首 先 不 要 求 严格 的 数据 库 事务 ， 保 证 数据 最 终 一 致 即 可 ;其 次 数据 库 的 写 入 可 能 在 几 秒 之 后 读 取 出 来 用 户 也 是 能 够 忍受 的 ， 也 就 是 说 不 能 实时 地 读 取 刚 刚 写 入 的 
数据 ， 另 外 就 是 复杂 SQL 的 查询 在 产品 设计 阶段 就 避免 了 ， 更 多 的 查询 集中 在 针对 主键 的 查询 。 


36 ”本章 小 结 


HBase 作 为 NoSQL 数 据 库 的 一 个 代表 和 传统 关系 型 数据 库 在 概念 上 有 相似 之 处 ， 但 也 有 非常 大 的 差别 ，HBase 更 多 的 是 为 了 扩展 性 和 性 能 考虑 ， 弱 化 了 事务 性 ， 广 大 读者 在 学 习 时 需要 带 着 一 个 全 新 的 
思维 方式 来 认识 HBase， 本 章 对 HBase 最 重要 的 概念 全 部 进行 了 概述 ， 在 后 面 的 章节 将 分 别针 对 各 个 方面 进行 详细 描述 。 鼓 励 大 家 将 HBase 应 用 于 实际 的 项 目 中 ， 经 过 实践 的 积累 会 越发 地 感受 到 HBase 在 
解决 特定 问题 时 所 带 来 的 优势 。 


第 4 章 ”HBase 表 结构 设计 


本 章 将 介绍 如 何 设 计 HBase 的 模式 (Schema) ， 将 对 比 HBase 与 RDBMS 的 模式 设计 的 异同 ， 重 点 介绍 模式 设计 中 的 要 点 一 一 Rowkey 和 Column Family， 并 结合 4 个 实例 介绍 如 何 进 行 HBase 的 模式 设 
计 。 


数据 库 的 模式 设计 并 不 是 一 个 新 概念 ， 在 关系 型 数据 库 之 前 ， 模 式 设计 的 范式 已 经 存在 。 其 实 ， 只 要 是 可 以 称 为 “数据 库 ” 的 系统 ， 都 存在 模式 设计 的 问题 。 作 为 一 种 典型 的 列 式 存储 数据 库 ，HBase 
的 模式 设计 同样 非常 重要 。HBase 的 模式 设计 和 传统 数据 库 的 模式 设计 存在 什么 样 的 差别 ， 更 需要 关注 的 是 哪些 关键 属性 ， 如 何 设 计 这 些 属性 ， 如 何 通 过 更 直观 、 清 晰 地 认识 模式 设计 ， 这 些 都 是 本 章 讲解 


44 模式 创建 


要 知道 HBase 的 表 如 何 创 建 ， 首 先 需要 了 解 HBase 的 模式 结构 ， 包 括 表 、Rowkey、 列 族 、Timestamp (时 间 版 本 ) 。 其 实 模式 是 一 个 三 维 有 序 结构 ， 前 面 三 个 维度 确定 一 行 数据 。 


HBase 的 模式 不 同 于 关系 型 数据 库 (RDBMS) ，HBase 与 RDBMS 的 区 别 在 于 : HBase 的 单元 格 (Cell) 所 在 的 行 是 有 序 的 ， 其 列 (Qualifier) 在 所 属 列 族 (Column Family) 存在 的 情况 下 ， 可 以 通 
过 客户 端 自由 添加 ， 如 表 4-1 所 示 。 


表 4-1 HBase 表 设计 模式 与 RDBMS 对 比 


属 性 RDBMS 

数据 类 型 只 有 字符 串 FE 富 的 数据 类 型 

数据 操作 简单 的 增删 改 查 ， 不 支持 Join 各 种 各 样 的 郴 数 与 表 连 接 
( 续 ) 

届 人 性 RDBMS 

存储 模式 基于 列 式 存储 基于 表格 结构 和 行 式 存储 

数据 保护 更 新 后 仍然 保留 旧版 本 FHR 

可 伸缩 性 轻易 地 增加 节点 ， 菲 容 性 高 需要 中 间 层 ， 物 牲 功 能 


通过 HBase 的 模式 与 传统 数据 库 系统 对 比 ， 我 们 可 以 更 清新 地 了 解 HBase 的 结构 : 其 实 HBase 和 关系 型 数据 库 是 不 同 的 两 种 系统 ， 它 们 拥有 不 同 的 设计 特性 。 


在 HBase 模 式 设计 过 程 中 需要 考虑 不 少 因素 ， 这 些 因素 的 列表 如 下 : 


EN 


这 个 表 应 该 有 多 少 个 列 族 。 


2) 列 族 使 用 什么 数据 。 


Ww 


每 个 列 族 应 该 有 多 少 列 。 
4) 列 名 是 什么 ， 尽 管 列 名 不 必 在 建 表 的 时 候 定义 ， 但 是 读 写 数 据 是 需要 知道 的 。 
5) 单元 应 该 存放 什么 数据 。 


6) 每 个 单元 存储 多 少 个 时 间 版 本 。 


7) 行 健 (Rowkey) 结构 是 什么 ， 应 该 包含 什么 信息 。 


(1) Join 


HBase 中 没有 Join 的 概念 ， 所 以 不 支持 Join 操 作 ， 而 在 不 少 业 务 需求 中 ， 需 要 使 用 Join 操 作 。 而 大 表 结构 可 以 解决 这 一 问题 ， 只 需要 一 条 行 记录 加 上 一 个 特定 的 行 关键 字 ， 就 可 以 实现 把 所 有 关于 Join 的 
数据 合并 在 一 起 。 


(2) Rowkey 


Rowkey 非 常 重要 ， 在 设计 时 需要 慎重 考虑 。 以 存储 用 户 观 影 记录 数据 为 例 ， 复 合 的 Rowkey 由 用 户 1D 作 为 前 缀 (方便 把 某 用 户 的 观 影 记录 聚合 在 一 起 ) ， 倒 置 的 时 间 串 作为 Rowkey 的 后 缀 可 以 使 观 影 
记录 数据 从 新 到 旧 排列 。 如 果 Rowkey 是 整 型 的 ， 用 二 进 制 的 方式 应 该 比 用 String 来 存储 一 个 数据 更 节约 空间 。 


带 着 上 面 提 到 的 若干 问题 ， 下 面 介绍 如 何 设计 HBase 表 结构 。 


42 ”Rowkey 设 计 


Rowkey 是 不 可 分 割 的 字 节 数 ， 按 字典 排序 由 低 到 高 存储 在 表 中 。 一 个 空 的 数组 用 来 标识 表 空 间 的 起 始 或 结尾 。 


在 设计 HBase 表 时 ，Rowkey 设 计 是 最 重要 的 事情 ， 应 该 基于 预期 的 访问 模式 来 为 Rowkey 建 模 。Rowkey 决 定 了 访问 HBase 表 时 可 以 得 到 的 性 能 ， 原 因 有 两 个 : Region 基 于 Rowkey 为 一 个 区 间 的 行 提 
供 服务 ， 并 且 负 责 区 间 的 每 一 行 ， HFile 在 硬盘 上 存储 有 序 的 行 。 这 两 个 因素 是 相互 关联 的 。 当 Region 将 内 存 中 数据 刷 写 为 HFile 时 ， 这 些 行 已 经 排 过 序 ， 也 会 有 序 地 写 到 硬盘 上 。Rowkey 的 有 序 特性 和 底 
层 存储 格式 可 以 保证 HBase 表 在 设计 Rowkey 之 后 的 良好 性 能 。 


关系 型 数据 库 可 以 在 多 列 上 建立 索引 ， 但 是 HBase 只 能 在 Rowkey 上 建立 索引 。 访 问 数据 库 的 最 主要 方法 就 是 使 用 Rowkey。 非 Rowkey 访 问 ， 即 在 不 清楚 Rowkey 前 提 下 访问 表 ， 可 以 使 用 扫描 全 表 。 
设计 Rowkey 有 各 种 技巧 ， 而 且 可 以 针对 不 同 访问 模式 进行 优化 ， 我 们 接 下 来 就 研究 一 下 。 


Rowkey 是 HBase 的 KeyValue 存 储 中 的 Key， 通 常 将 用 户 要 查询 的 字段 作为 Rowkey， 查 询 结果 作为 Value。 下 面 介绍 Rowkey 设 计 需 要 的 注意 要 点 。 在 进行 Rowkey 设 计时 用 户 需要 根据 不 同 的 需求 有 针 


1.Rowkey 是 以 字典 顺序 从 大 到 小 排序 


原生 HBase 只 支持 从 小 到 大 的 排序 ， 但 是 现在 有 个 需求 想 展现 影片 热度 排行 榜 ， 这 就 要 求实 现 从 大 到 小 排列 ， 针 对 这 种 情况 可 以 采用 Rowkey=Integer.MAX_VALUE-Rowkey 的 方式 将 Rowkey 进 行 转 
换 ， 最 大 的 变 最 小 ， 最 小 的 变 最 大 ， 在 应 用 层 再 转 回来 即 可 完成 排序 需求 。 


2.RowKey 尽 量 散 列 RowKey 设 计 


最 重要 的 是 要 保证 散 列 ， 这 样 就 会 保证 所 有 的 数据 都 不 是 在 一 个 Region 上 ， 从 而 避免 读 写 的 时 候 负载 会 集中 在 个 别 Region 上 。 


假设 我 们 需要 存储 一 个 视频 网 站 用 户 的 所 有 观 影 记录 (暂时 不 需要 考虑 时 间 倒 排 ) ， 这 时 候 的 Rowkey 可 设计 为 userid_videoid 的 拼接 字符 串 ， 但 是 这 样 设计 的 话 ，userid 的 分 布 就 很 可 能 不 均匀 ， 因 为 
Rowkey 是 按 字符 串 排序 的 (默认 字典 顺序 排序 ) 。 


有 三 种 办 法 来 解决 这 个 问题 ， 具 体 如 下 : 
< 反 转 userid， 将 userid 字 符 串 反 转 后 存储 。 


- 散 列 usetid， 即 对 usetid 进 行 散 列 。 


' userid 取 模 后 进行 MD5 加 密 ， 取 前 6 位 作为 前 组 加 入 到 usetid 前 面 。 


假设 某 视频 网 站 的 用 户 正在 观看 视频 ， 但 此 时 ， 要 开辟 一 个 新 栏目 ， 所 有 的 用 户 观 影 记 录 都 按照 时 间 倒 排序 展示 在 这 个 栏目 中 。 这 个 时 候 ， 就 需要 为 原来 的 userid_videoid 建 立 一 张 索引 表 ， 并 且 这 个 
表 的 Rowkey 要 和 时 间 相 关 。 


Rowkey 设 计 可 以 使 用 当前 时 间 ( 观 影 时 间 ) 的 Long 值 作为 Rowkey 的 前 级 。 另 外 建议 Lowkey 最 好 都 是 String: 一 是 方便 线 上 使 用 Shell 查 数据 、 排 查 错误 ; 二 是 更 容易 让 数据 均匀 分 布 ; 三 是 不 必 考 虑 
存储 成 本 。 


3.RowKey 的 长 度 尽 量 短 


如 果 Rowkey 太 长 ， 第 一 存储 开销 会 增加 ， 影 响 存储 效率 ; 第 二 内 存 中 Rowkey 字 段 过 长 ,会 导致 内 存 的 利用 率 降低 ， 进 而 降低 索引 命中 率 。 


一 般 的 做 法 是 : 
- 时 间 使 用 Long 来 表示 。 


“ 尽量 使 用 编码 压缩。 


43 FEX 


列 族 (Column Family) 是 一 些 列 的 集合 。 一 个 列 族 的 所 有 列 成 员 有 着 相同 的 前 缀 。 比 如 ， 列 courses:history 和 courses:math 都 是 列 族 courses 的 成 员 。 冒 号 C) 是 列 族 的 分 隔 符 ， 用 来 区 分 前 缀 和 列 
名 。 列 族 前 缀 必须 是 可 输出 的 字符 ， 剩 下 的 部 分 称 为 列 (Qualifier) ， 可 以 由 任意 字 节 数组 组 成 。 列 族 必须 在 表 建 立 的 时 候 声明 。 列 则 不 需要 特别 声明 ， 用 户 随 时 可 以 创建 新 列 。 


在 物理 上 ， 一 个 列 族 的 成 员 在 文件 系统 上 都 存储 在 一 起 ， 因 为 存储 优化 都 是 针对 列 族 级 别 的 ， 这 就 意味 着 ， 访 问 一 个 列 族 的 所 有 成 员 的 方式 都 是 相同 的 。 


现在 HBase 并 不 能 很 好 地 处 理 两 个 或 者 三 个 以 上 的 列 族 ， 所 以 尽量 减少 列 族 数量 。 目 前 ，flush 和 compaction 操 作 是 针对 一 个 Region 的 ， 所 以 当 一 个 列 族 操 作 大 量 数据 的 时 候 会 引发 一 个 flush。 那 些 不 
相关 的 列 族 也 要 进行 flush 操 作 ， 尽 管 它们 没有 操作 多 少数 据 。compaction 操 作 现 在 是 根据 一 个 列 族 下 全 部 文件 的 数量 触发 的 ， 而 不 是 根据 文件 大 小 触发 的 。 当 很 多 的 列 族 在 进行 flush 和 compaction 时 ， 
会 造成 很 多 没 用 的 MO 负载 ， 要 解决 这 个 问题 ， 需 要 将 flush 和 compaction 操 作 只 针对 一 个 列 族 进 行 。 


尽量 在 应 用 中 使 用 一 个 列 族 。 如 果 所 有 查询 操作 只 访问 一 个 列 族 ， 可 以 引入 第 二 个 和 第 三 个 列 族 。 基 于 flush 性 能 的 考虑 ， 列 族 数量 越 少 越 好 。 


如 果 一 个 表 存 在 多 个 列 族 ， 当 基数 差距 很 大 时 ,例如 ，A 族 有 100 万 行 ，B 族 有 10 亿 行 ，A 族 可 能 会 被 分 散 到 很 多 Region， 导 致 扫描 A 的 效率 降低 。 多 个 列 族 在 执行 flush 和 compaction 时 ， 会 造成 很 多 
VORR. 


下 面 是 列 族 相关 的 配置 属性 ， 这 些 属性 都 有 默认 值 ， 如 果 在 创建 表 的 时 候 不 显 式 指定 ， 则 使 用 默认 值 。 


43.1. 可 配置 的 数据 块 大 小 


HFile 数 据 块 大 小 可 以 在 列 族 层次 设置 。 这 个 数据 块 不 同 于 之 前 谈 到 的 HDFS 数 据 块 ， 其 默认 值 是 65536 字 节 ， 或 64KB。 数 据 块 索引 存储 每 个 HFile 数 据 块 的 起 始 键 。 数 据 块 大 小 的 设置 影响 数据 块 索引 的 
大 小 。 数 据 块 越 小 ， 索 引 越 大 ， 从 而 占用 更 大 内 存 空间 。 同 时 加 载 进 内 存 的 数据 块 越 小 ， 随 机 查找 性 能 更 好 。 但 是 ， 如 果 需 要 更 好 的 序列 扫描 性 能 ， 那 么 一 次 能 够 加 载 更 多 HFile 数 据 进入 内 存 更 为 合理 ， 这 
意味 着 应 该 将 数据 块 设置 为 更 大 的 值 。 相 应 地 ， 索 引 变 小 ， 将 在 随机 读 性 能 上 付出 更 多 的 代价 。 


可 以 在 表 实例 化 时 设置 数据 块 大 小 ， 代 码 如 下 : 


hbase (main) : 002: 0» create 'mytable', 
(NAME => 'colfaml', BLOCKSIZE => '65536') 


43.2 ”数据 块 缓存 


把 数据 放 进 读 缓存 ， 并 不 是 一 定 能 够 提升 性 能 。 如 果 一 个 表 或 表 的 列 族 只 被 顺序 化 扫描 访问 或 很 少 被 访问 ， 则 Get 或 Scan 操作 花费 时 间 长 一 点 是 可 以 接受 的 。 在 这 种 情况 下 ， 可 以 选择 关闭 列 族 的 缓 
存 。 如 果 只 是 执行 很 多 顺序 化 扫描 ， 会 多 次 使 用 缓存 ， 并 且 可 能 会 滥用 缓存 ， 从 而 把 应 该 放 进 缓存 获得 性 能 提升 的 数据 给 排挤 出 去 。 如 果 关 闭 缓存 ， 不 仅 可 以 避免 上 述 情况 发 生 ， 而 且 可 以 让 出 更 多 缓存 给 
其 他 表 和 同一 表 的 其 他 列 族 使 用 。 


数据 块 缓存 默认 是 打开 的 。 可 以 在 新 建 表 或 更 改 表 时 关闭 数据 块 缓存 属性 : 


hbase (main) : 002: 0» create 'mytable', {NAME => 'colfaml', BLOCKCACHE => 'false'] 


IN_MEMORY 参 数 的 默认 值 是 false， 该 值 表示 HBase 除 了 在 数据 块 缓存 中 保存 这 个 列 族 相 比 
太 大 。 下 面 代码 展 示 如 何 设置 IN_MEMORY 属 性 : 


他 列 族 更 激进 之 外 ， 并 不 提供 其 他 额外 的 保证 。 该 参数 在 实际 应 用 中 设置 为 true， 此 时 访问 性 能 不 会 变化 


hbase (main) : 002: 0» create 'mytable', {NAME => 'colfaml', IN MEMORY => 'true'} 


4.3.3， 布 隆 过 滤器 


数据 块 索引 提供 了 一 个 有 效 的 方法 getDataBlocklndexReader () ， 在 访问 某 个 特定 的 行 时 用 来 查找 应 该 读 取 的 HFile 的 数据 块 。 但 是 该 方法 的 作用 有 限 。HFile 数 据 块 的 默认 大 小 是 64KB， 一 般 情况 下 
不 能 调整 太 多 。 


如 果 要 查找 一 个 很 短 的 行 ， 只 在 整个 数据 块 的 起 始 行 键 上 建立 索引 是 无 法 给 出 更 细 粒 度 的 索引 信息 的 。 例 如 ， 某 行 占用 100 字 节 存 储 空间 ， 一 个 64KB 的 数据 块 包含 (64x1024) /100=655.53, £9700 
行 ， 只 能 把 起 始 行 放 在 索引 位 上 。 要 查找 的 行 可 能 藻 在 特定 数据 块 上 的 行 区 间 ， 但 也 不 能 肯定 存放 在 那个 数据 块 上 ， 这 就 导致 多 种 可 能 性 : 该 行 在 表 中 不 存在 ， 或 者 存放 在 另 一 个 HFile 中 ， 甚 至 在 
Memstore 中 。 这 些 情况 下 ， 从 硬盘 读 取 数 据 块 会 带 来 MO 开销 ， 也 会 滥用 数据 块 缓存 ， 这 会 影响 性 能 ， 尤 其 是 当面 对 一 个 巨大 的 数据 集 且 有 很 多 并 发 读 用 户 时 。 


布 隆 过 滤器 (Bloom Filter) 允许 对 存储 在 每 个 数据 块 的 数据 做 一 个 反 向 测验 。 当 查询 某 行 时 ， 先 检查 布 隆 过 滤器 ， 看 看 该 行 是 否 不 在 这 个 数据 块 。 布 隆 过 滤器 要 么 确定 回答 该 行 不 在 ， 要 么 回答 不 知 
道 。 因 此 称 之 为 反 向 测验 。 布 隆 过 滤器 也 可 以 应 用 到 行内 的 单元 格 上 ， 当 访问 某 列 标识 符 时 先 使 用 同样 的 反 向 测验 。 


使 用 布 隆 过 滤器 也 不 是 没有 代价 ， 相 反 ， 存 储 这 个 额外 的 索引 层次 占用 额外 的 空间 。 布 隆 过 滤器 的 占用 空间 大 小 随 着 它们 的 索引 对 象 数据 增长 而 增长 ， 所 以 行 级 布 隆 过 滤器 比 列 标识 符 级 布 隆 过 滤器 占 
空间 要 少 。 当 空间 不 是 问题 时 ， 它 们 可 以 压榨 整个 系统 的 性 能 潜力 。 


可 以 在 列 族 上 打开 布 隆 过 滤器 ， 代 码 如 下 : 


u 


hbase (main) : 007: 0» create 'mytable', {NAME => 'colfaml', BLOOMFILTER => 'ROWCOL') 


布 隆 过 滤器 参数 的 默认 值 是 NONE。 另 外 ， 还 有 两 个 值 : ROW 表示 行 级 布 隆 过 滤器 ; ROWCOL 表 示 列 标识 符 级 布 隆 过 滤器 。 行 级 布 隆 过 滤器 在 数据 块 中 检查 特定 行 键 是 否 不 存在 ， 列 标识 符 级 布 隆 过 
滤器 检查 行 和 列 标识 符 联合 体 是 否 不 存在 。ROWCOL 布 隆 过 滤器 的 空间 开销 高 于 ROW 布 隆 过 滤器 。 


434 数据 压缩 


HFile 可 以 被 压缩 并 存放 在 HDFS 上 ， 这 有 助 于 节省 硬盘 /O， 但 是 读 写 数据 时 压缩 和 解压 缩 会 抬 高 CPU 利用 率 。 压 缩 是 表 定 义 的 一 部 分 ， 可 以 在 建 表 或 模式 改变 时 设 定 。 除 非 确定 压缩 不 会 提升 系统 的 性 
能 ， 否 则 推荐 打开 表 的 压缩 。 只 有 在 数据 不 能 被 压缩 ， 或 者 因为 某 些 原因 服务 器 的 CPU 利用 率 有 限制 要 求 的 情况 下 ， 有 可 能 需要 关闭 压缩 特性 。 


HBase 可 以 使 用 多 种 压缩 编码 ， 包 括 LZO、SNAPPY 和 GZIP，LZO 和 SNAPPY 是 其 中 最 流行 的 两 种 。SNAPPY 由 Google 在 2011 年 发 布 ， 发 布 不 久 Hadoop 和 HBase 项 目 开 始 对 其 提供 支持 。 在 此 之 前 ， 
选择 的 是 LZO 编 码 。Hadoop 使 用 的 LZO 原 生 库 受 GPLv2 版 权 控制 ， 不 能 放 在 Hadoop 和 HBase 的 任何 发 行 版 中 ， 必 须 在 它们 中 单独 安装 。 另 外 ，SNAPPY 拥 有 BSD 许 可 (BSD-licensed) ， 所 以 它 更 容易 和 
Hadoop 及 HBase 发 行 版 捆绑 在 一 起 。LZO 和 SNAPPY 的 压缩 比例 和 压缩 /解压 缩 速 度 差不多 。 


当 建 表 时 可 以 在 列 族 上 打开 压缩 ， 代 码 如 下 : 


hbase (main) : 002: 0» create 'mytable', {NAME => 'colfaml', COMPRESSION => 'SNAPPY'} 


注意 ， 数 据 只 在 硬盘 上 是 压缩 的 ， 在 内 存 中 (Memstore 或 BlockCache) 或 在 网 络 传输 时 是 没有 压缩 的 。 


不 能 经 常 改变 数据 的 压缩 编码 ， 但 是 如 果 的 确 需要 改变 某 个 列 族 的 压缩 编码 ， 也 可 以 直接 更 改 表 定 义 ， 设 定 新 的 压缩 编码 。 此 后 Region 合 并 时 ， 生 成 的 HFile 全 部 会 采用 新 编码 压缩 。 这 个 过 程 不 需 
创建 新 表 和 复制 数据 。 


4.3.5 ”单元 时 间 版 本 


在 默认 情况 下 ，HBase 的 每 个 单元 格 只 维护 三 个 时 间 版 本 。 该 属性 也 是 可 以 设置 的 。 如 果 只 需要 一 个 版 本 ， 在 创建 表 时 可 以 直接 将 VERSIONS 参 数 设置 为 1， 这 样 系统 就 不 会 保留 更 新 单元 的 多 个 时 间 版 
本 。 时 间 版 本 也 是 在 列 族 级 设置 的 ， 代 码 如 下 : 


hbase (main) : 002: 0» create 'mytable', (NAME => 'colfaml', VERSIONS => 1) 


可 以 在 同一 个 建 表 语句 里 为 列 族 指定 多 个 属性 ， 代 码 如 下 : 


hbase (main) : 002: 0> create 'mytable', {NAME => 'colfaml', VERSIONS => 1, TTL => '18000'} 


也 可 以 指定 列 族 存储 的 最 少时 间 版 本 数 ， 代 码 如 下 : 


hbase (main) : 002: 0» create 'mytable', {NAME => 'colfaml', VERSIONS => 5, 
MIN VERSIONS => '1'J 


在 列 族 上 同时 设 定 TTL ( 见 4.3.6 节 ) 也 是 非常 有 用 的 。 如 果 当 前 存储 的 所 有 时 间 版 本 都 早 于 TTL， 至 少 MIN_VERSION 个 最 新 版 本 会 保留 下 来 ， 这 样 可 以 确保 在 查询 以 及 数据 早 于 TTL 时 有 结果 返回 。 


43.6 ”生存 时 间 


生存 时 间 (Time To Live, TTL) ， 用 于 设置 单元 格 的 生存 周期 。 如 果 单 元 格 过 期 ， 则 会 将 其 删除 。 应 用 系统 经 常 需要 从 数据 库 中 删除 上 日 数据 ， 因 为 数据 库 很 难 超过 某 种 规模 。 传 统 数据 库 中 内 置 了 许多 
灵活 的 处 理 方法 。 例 如 ， 在 一 个 视频 网 站 用 户 的 观 影 系 统 中 ， 不 想 删除 用 户 所 有 观 影 记录 。 这 些 都 是 用 户 生成 的 数据 ， 将 来 某 一 天 执行 一 些 深度 挖掘 分 析 时 可 能 有 用 ， 但 是 不 需要 保持 所 有 观 影 记 录 都 能 3 
时 访问 ， 所 以 可 以 将 早 于 某 个 时 间 的 观 影 记录 归档 存放 到 平面 文件 中 。 


早 于 指定 TTL 值 的 数据 在 下 一 次 大 合并 时 会 被 删除 。 如 果 在 同一 单元 格 上 有 多 个 时 间 版 本 ， 早 于 设 定 TTL 值 的 版 本 会 被 删除 。 可 以 禁用 TTL， 或 者 通过 设置 其 
永远 启用 ， 这 也 是 默认 值 ， 单 位 是 秒 。 可 以 在 建 表 时 设置 TTL， 代 码 如 下 : 


AS 


[&73INT. MAX VALUE (2147483647) 让 它 


hbase (main) : 002: 0» create 'thetable', (NAME => 'cfl', TTL => '18000') 


该 命令 在 列 族 cf1 上 设置 TTL 为 18000s， 即 5 小 时 。cf1 中 超过 5 小 时 的 数据 将 会 在 下 一 次 大 合并 时 被 删除 。 


44 模式 设计 实例 


在 设计 数据 库 表 的 时 候 ， 考 虑 设计 要 满足 功能 需求 是 最 基本 的 工作 。 下 面 将 通过 4 个 实例 讲解 如 何 进行 HBase 表 结构 设计 ， 主 要 通过 数据 和 功能 需求 ， 对 比 传统 关系 型 数据 库 与 HBase 表 结构 设计 的 异 
同 。 


4.4.1 实例 1: 动物 分 类 


如 果 一 位 生物 科学 家 要 存储 一 些 动物 相关 信息 ， 其 中 要 包括 动物 的 大 类 ， 以 及 一 些 大 类 动物 下 包括 的 小 类 ， 这 样 可 以 方便 今后 查询 某 种 具体 动物 属于 哪 一 类 别 ， 以 及 动物 名 字 具 体 是 什么 。 下 面 简单 列 
举 一 些 动物 分 类 如 下 : 


”Animal 


“Pig 


* Cat 


: Monkey 


: Dog: Red dog 和 Black dog 


* Tiger: Tiger of northeast 


其 中 ，Animal 是 顶级 分 类 ，Pig、Cat、Monkey、Dog 和 Tiger 属 于 一 级 分 类 ， 而 Dog 中 的 Red dog 和 Black dog， 以 及 Tiger 中 的 Tiger of northesst 属 于 二 级 分 类 。 


N 


.RDBMS 表 结构 设计 


物 分 类 在 关系 型 数据 库 的 设计 中 只 需要 考虑 主键 的 映射 关系 即 可 ， 需 要 一 个 分 类 表 结 构 。 每 种 动物 都 有 几 个 关键 字段 : id、name、parent_id 和 child_id， 如 表 4-2 所 示 。 


BU 


表 4-2 RDBMS 中 的 动物 分 类 表 结 构 


; 
[ Wd | 


N 


black-dog 


— 
IE 


3.HBase 中 表 结构 设计 


对 于 动物 分 类 的 HBase 表 结构 设计 ，Rowkey 对 应 RDBMS 中 的 id， 共 有 三 个 列 族 : name、parent 和 child， 详 细 设 计 如 表 4-3 所 示 。 
表 4-3 HBase 中 的 动物 分 类 表 结 构 
Rowkey Column Famlily 


«id» name parent child 


parent:<id> child:<id> 


child:2=cat 


child:3=monkey 


1 animal child:4-dog 
child:5-tiger 
child:6-pig 

: child:7-reddog 

4 dog parent: 1—-animal 


child:8-blackdog 


dd parent:1—animal 
reddog 


~ 


parent:4-dog 


通过 这 个 简单 的 例子 可 以 看 出 ， 这 两 种 表 结 构 设 计 有 本 质 的 区 别 ， 一 个 是 行 式 存 储 ， 一 个 是 列 式 存储 ， 所 以 刚刚 接触 HBase 的 读者 需要 转换 思维 设计 表 结构 ， 这 样 才能 够 更 好 地 掌握 HBase 的 表 模式 设 
计 。 


4.4.2 ”实例 2: 店铺 与 商品 


电 商 行业 中 店铺 和 商品 都 是 最 基本 的 概念 ， 本 实例 将 描述 这 两 者 之 间 的 关系 。 本 实例 是 涉及 多 表 关 联 关系 的 设计 。 


某 电 商 网 站 要 存储 在 本 网 站 的 店铺 属性 信息 ， 同 时 要 知道 这 些 店铺 都 卖 了 那些 商品 以 及 这 些 商品 的 详细 信息 。 下 面 是 店铺 和 商品 之 间 关 系 的 描述 。 


: 店铺 表 : Shop: Item=1:N 


' 商品 表 : Item: Shop=1:N 


其 中 ，Shop 是 店铺 ，ltem 是 商品 。1:N 表 示 一 对 多 。 


2.RDBMS 表 结构 设计 


关系 型 数据 库 中 店铺 表 共 包含 三 个 字段 : name、address 和 regdate， 分 别 表 示 店 铺 名 称 、 所 在 地 和 注册 日 期 ， 具 体 描述 如 表 4-4 所 示 。 


表 4-4 RDBMS 中 的 店铺 表 结构 


列 名 列 含义 
id PK E 
name 店铺 名 称 
address 所 在 地 
regdate 注册 日 期 


商品 表 共 包含 四 个 字段 : name、price、details 和 title， 分 别 表示 商品 名 称 、 价 格 、 商 品 详情 和 展示 名 称 ， 具 体 描述 如 表 4-5 所 示 。 


表 4-5 RDBMS 中 的 商品 表 结构 


列 列 含义 
id PK E 
name 商品 名 称 
price 价格 
details 商品 详情 
title 展示 名 称 


店铺 商品 对 应 关系 表 是 表示 店铺 和 商品 的 映射 关系 的 表 ， 共 三 个 字段 : shop_id、item_id 和 type， 详 细 解 释 如 表 4-6 所 示 。 


表 4-6 RDBMS 中 的 店铺 与 商品 对 应 关系 表 结 构 


» 名 列 含义 
shop id 店铺 主键 
item id 商品 主键 
type 关联 类 型 


3.HBase 表 结构 设计 


店铺 表 主 键 是 RDBMS 中 的 店铺 表 的 id， 共 有 两 个 列 族 : info 和 item，info 表 示 店 铺 的 静态 属性 ，item 表 示 店 铺 与 商品 的 关联 关系 ， 如 表 4-7 所 示 。 


表 4-7 HBase 中 的 店铺 表 结构 


Rowkey Column Famlily 
item 
bo HP info:name 
info:address item:<item id>=type 
info:regdate 
商品 表 主 键 是 RDBMS 中 的 商品 表 的 id。 共 有 两 个 列 族 : info 和 shop，info 表 示 商 品 的 静态 属性 ，shop 表 示 商 品 与 店铺 的 关联 关系 ， 如 表 4-8 所 示 。 
表 4-8 HBase 中 的 商品 表 结构 
Rowkey Column Famlily 
shop 
info:name 
<item id- info:price 


i ; shop:<shop_id>=type 
info:details = 


info:title 


通过 对 比 我 们 可 以 看 出 ，RDBMS 表 结构 设计 是 通过 三 个 表 来 实现 的 : 一 个 表 存 储 商品 的 详细 信息 ， 一 个 表 存 储 店铺 的 详细 信息 ， 还 有 一 个 是 店铺 与 商品 的 对 应 关系 表 。 而 HBase 表 结构 设计 是 通过 两 个 
表 实 现 的 ， 每 个 表 中 都 存储 了 店铺 与 商品 的 关联 关系 ， 并 分 别 存储 了 商品 与 店铺 的 详细 信息 。 如 果 想 查询 某 个 店铺 所 卖 的 商品 的 详细 信息 ，RDBMS 表 要 通过 对 商品 详细 信息 和 商品 与 店铺 对 应 关系 表 进行 
Join 来 实现 ， 而 HBase 表 只 需 找到 存储 了 商品 的 详细 信息 的 表 来 查询 即 可 。 


44.3 实例 3: 网 上 商城 用 户 消费 记录 


现在 网 购 已 经 成 为 潮流 ， 用 户 在 网 上 商城 购买 商品 产生 购买 行为 ， 网 站 一 定 会 记录 下 用 户 的 消费 记录 ， 本 案例 就 是 对 网 上 商城 的 用 户 消费 记录 进行 分 析 ， 提 炼 数据 模型 ， 并 对 比 关系 型 数据 库 和 HBase 
数据 库 的 表 结 构 设计 的 异同 。 


某 电 商 网 站 要 存储 用 户 购买 商品 的 信息 ， 并 且 想 知道 该 用 户 最 近 一 段 时 间 都 购买 了 哪些 商品 ， 从 而 分 析 该 用 户 近 期 的 消费 状态 ， 具 体 的 查询 需求 如 下 : 


< 用户 购买 的 商品 。 


“ 查询 用 户 最 近 购 买 的 商品 。 


2.RDBMS 表 设计 


为 了 加 速 查询 ,需要 对 user_id 建 立 索 引 ， 但 是 建立 索引 的 代价 是 索引 的 重建 导致 插入 速度 减 慢 。 关 系 型 数据 库 中 用 户 消费 记录 表 Sale 如 表 4-9 所 示 。 


表 4-9 RDBMS 中 的 Sale 表 结构 


列 名 列 含 义 
id PK E 
user id IDX 用 户 ID, 创建 索引 
product 商品 
time 购买 时 间 


3.HBase 表 结构 设计 


在 HBase 中 设计 用 户 消费 表 Sale 时 ，Rowkey 的 设计 非常 重要 。 本 例 使 用 <user id» «Long.MAX VALUE-System.currentTimeMillis () ><product id> 作 为 Rowkey， 该 Rowkey 共 由 三 个 部 分 组 成 : 


user id, Long.MAX VALUE-System.currentTimeMillis () 和 product_ id， 其 中 ，Long.MAX_VALUE-System.currentTimeMillis () 是 为 了 使 得 用 户 的 最 近 消费 记录 能 够 按照 时 间 顺 序 排列 。 详 细 设计 
如 表 4-10 所 示 。 


表 4-10 HBase 中 的 Sale 表 结构 


Rowkey Column Famlily 


name 
«user 1d><Long.MAX VALUE - System.currentTimeMillis()> 


: name:product 
«product id- p 


name:time 


444 实例 4: 微 博 用 户 与 粉丝 


很 多 人 都 在 玩 微 博 ， 相 信 大 家 都 知道 微 博 上 用 户 和 粉丝 是 非常 紧密 的 关系 。 本 例 将 尝试 提炼 用 户 与 粉丝 关系 的 数据 模型 ， 并 对 比 RDBMS 和 HBase 设 计 表 结构 的 异同 。 


1 数据 描述 


微 博 网 站 既 要 存储 用 户 的 详细 信息 ， 也 要 存储 该 用 户 所 有 的 粉丝 对 应 关系 。 用 户 与 粉丝 的 对 应 关系 是 一 对 多 ， 即 userfans=1:N，user 是 用 户 ，fans 是 粉丝 ，1:N 表 示 一 对 多 。 基 于 这 些 数据 关系 ， 数 据 
处 理 需 求 是 可 以 查询 用 户 的 所 有 粉丝 。 


2.RDBMS 表 结构 设计 


RDBMS 中 的 用 户 表 共有 5 个 字段 : id、nickname、gender、dob 和 address， 详 细 的 字段 说 明 如 表 4-11 所 示 。 


表 4-11 RDBMS 中 的 用 户 表 结构 


5» 名 列 含义 
id PK rig 
nickname 用 户 了 昵称 
gender 性 别 

dob 出 生日 期 
address 所 在 地 


户 粉丝 对 应 表 共有 三 个 字段 : user id, fans id 和 type， 详 细 的 字段 解释 如 表 4-12 所 示 。 


表 4-12 RDBMS 中 的 用 户 粉丝 对 应 表 结 构 


列 名 列 含 义 
user id 用 户主 键 
fans id 粉丝 用 户主 键 
type H 87 


3.HBase 表 结构 设计 


表 4-13 是 用 户 与 粉丝 关系 表 的 HBase 表 结构 。 其 中 ， 主 键 是 RDBMS 中 的 用 户主 键 。 列 族 有 两 个 : info 和 fans，info 表 示 用 户 的 静态 属性 信息 ，fans 表 示 该 用 户 的 粉丝 关系 。 因 为 粉丝 也 是 微 博 用 户 ， 所 


以 粉丝 的 id 也 是 user_ id， 在 fans 列 族 中 的 粉丝 id 也 使 用 user id, 


表 4-13 ”HBase 中 的 用 户 与 粉丝 表 结构 


Rowkey Column Famlily 


fans 
info:nickname 

«user id^ info:gender 
info:dob 


fans:cuser id-»-type 


info:address 


通过 对 比 可 以 看 出 ，RDBMS 是 使 用 两 个 表 来 设计 实现 的 ， 一 个 表 存 储 用 户 的 详细 信息 ， 一 个 表 存 储 用 户 与 粉丝 的 对 应 关系 。 而 HBase 通 过 一 个 表 存 储 用 户 的 详细 信息 和 粉丝 对 应 关系 。 


45 ”本 章 小 结 


我 们 带 着 一 些 问 题 开始 了 本 章 的 学 习 ， 现 在 我 们 知道 ，HBase 表 如 何 设计 是 与 需求 直接 相关 的 ， 如 果 想 设计 优秀 的 表 结 构 ， 关 键 是 先 理 清 业 务 场景 需求 。 当 然 HBase 表 结构 设计 有 一 些 硬性 指标 ， 遵 循 
这 些 指标 对 HBase 性 能 的 提升 有 很 大 帮助 。 例 如 ，Rowkey 本 身 是 按 字典 升序 排列 ， 每 个 表 最 好 不 超过 三 个 列 族 等 。 


HBase 表 非常 灵活 ， 可 以 以 字符 数组 形式 存储 任何 东西 ， 可 以 在 同一 列 族 中 存储 相似 访问 模式 的 所 有 列 ， 同 时 也 支持 在 线 更 改 表 结构 。 当 然 ， 更 改 表 结构 需要 先 将 表 下 线 ， 更 改 完成 之 后 再 上 线 。 


第 5 章 HBase 客 户 端 


本 章 将 介绍 HBase 相 关 的 客户 端 ， 基 本 上 每 节 都 会 介绍 一 类 客户 端的 概念 和 使 用 方法 ， 包 括 原生 Java 客 户 端 、HBase Shell, Thrift, REST, MapReduce, Web UI 界面 以 及 其 他 客户 端 等 。 这 些 客 户 端 
有 些 与 编程 AP 相关， 有 些 与 状态 统计 相关 。 


其 中 ， 原 生 Java 客 户 端 、HBase Shell 工 具 和 Thrift 客 户 端 是 三 种 最 常用 的 、 最 重要 的 客户 端 ， 所 以 这 些 内 容 讲解 得 会 比较 丰富 、 细 致 ， 其 他 的 客户 端 介绍 得 相对 要 少 一 些 ， 而 有 一 些 比较 生 企 的 客户 端 
将 会 简单 罗列 一 下 ， 介 绍 一 些 基本 信息 。 本 章 介绍 的 内 容 与 HBase 开 发 人 员 紧 密 相 关 ， 如 果 读 者 对 基于 HBase 的 开发 感 兴趣 ， 可 以 深入 地 阅读 本 章 的 内 容 。 


5.1 “精通 原生 Java 客 户 端 


HBase 官 方 代码 包 里 面包 含 原生 访问 客户 端 ， 由 java 语言 实现 ， 同 时 它 也 是 最 主要 、 最 高 效 的 客户 端 。 相 关 的 类 在 org.apache.hadoop.hbase.client 包 中 ， 涵 盖 增 、 删 、 改 、 查 等 所 有 APl。 
包含 HTable、HBaseAdmin、Put、Get、Scan、Increment 和 Delete 等 。 


主要 的 类 


HBase 作 为 一 个 NoSQL 数 据 库 ， 最 基本 的 操作 就 是 CRUD ( 即 前 面 提 到 的 增 、 删 、 改 、 查 ) ， 其 中 的 改 (Update) 操作 没有 实现 ， 其 他 三 类 操作 已 经 有 丰富 且 成 熟 的 实现 。 除 了 这 些 操作 ， 原 生 Java 客 
户 端 还 实现 了 创建 、 删 除 和 修改 表 等 DDL (数据 定义 语言 ) 操作 ， 同 时 还 提供 一 些 工具 操作 ， 类 似 合并 、 分 裂 Region、 分 配 Region 等 。 接 下 来 ， 将 详细 讲解 原生 Java 客 户 端的 基本 知识 和 使 用 方法 。 


5.1.1 “客户 端 配置 


使 用 原生 Java 客 户 端 之 前 首先 要 配置 客户 端 ， 需 要 创建 配置 类 、 定 义 HMaster 地 址 、 定 义 ZooKeeper 端 口 、ZooKeeper 队 列 名 称 以 及 需要 操作 的 表 的 名 字 。 


1. 简 单 的 配置 实例 


首先 ， 举 一 个 简单 的 配置 实例 。 该 实例 不 但 包含 了 操作 HBase 表 的 入 口 类 ， 还 包含 HBase 的 管理 入 口 类 。 示 例 代码 如 下 : 


public class HBaseManager extends Thread { 
public Configuration config; 
public HTable table; 
public HBaseAdmin admin: 
public HBaseManager () { 
config = HBaseConfiguration.create () ; 
config.set ("hbase.master", "test1: 60000"); 
config.set ("hbase.zookeeper.property.clientPort", "2181") ; 
config.set ("hbase.zookeeper.quorum", "testl, test2, test3") ; 
try ( 
y table = new HTable (config, Bytes.toBytes ("demo table") ) ; 
admin = new HBaseAdmin (config) : 
) catch (IOException e) { 
e.printStackTrace () ; 


i 


其 中 ，Configuration 是 用 于 客户 端的 配置 类 ， 设 置 的 三 个 参数 hbase.master、hbase.zookeeper.property.clientPort 和 hbase.zookeeper.quorum 分 别 表示 HMaster 地 址 、ZooKeeper 端 口 和 
ZooKeeper 队 列 名称 。HTable 类 用 于 连接 单独 的 HBase 表 ， 该 类 在 写 入 的 时 候 并 不 是 线程 安全 的 。HBaseAdmin 提 供 了 管理 HBase 数 据 库 的 一 些 操作 、 表 元 数据 的 操作 和 一 些 基本 的 管理 方法 等 。 


上 面 的 代码 配置 完成 了 客户 端的 连接 信息 ， 之 后 可 以 直接 使 用 HTable 和 HBaseAdmin 两 个 入 口 类 操作 HBase 中 的 表 数 据 和 元 数据 。 


2. 表 操作 入 口 类 HTable 


下 面 的 内 容 将 详细 介绍 表 操 作 入 口 类 HTable， 主 要 从 构造 函数 和 主要 实现 方法 两 方面 进行 曾 述 。 


了 解 Java 语 言 的 读者 能 够 理解 构造 函数 的 含义 ， 它 是 Java 语 言 不 可 或 缺 的 一 部 分 。 在 多 数 情 况 下 ， 构 造 函 数 都 是 创建 实例 的 入 口 。HTable 类 的 构造 函数 有 4 类 ， 分 别 具 备 不 同 的 参数 类 型 或 者 参数 个 
数 ， 如 图 5-1 所 示 。 


onstructor Summary 


HTable(byte[] tableName, HConnection connection, ExecutorService pool) 
Creates an object to access a HBase table. 


HIablc (org. apache. hadoop. conf. Configuration conf, bytel] tableNeme) 
Creates an object to access a HBase table. 


HTable (org. apache. hadoop. conf. Configuration conf, bytel] tableName, 
Creates an object to access a HBase table. 


HTable (org. apache. hadoop. conf. Configuration conf, String tableName) 
Creates an object to access a HBase table. 


5-1 HTable 类 的 构造 函数 


在 图 5-1 中 ， 第 一 个 和 第 三 个 构造 函数 使 用 ExecutorService 类 ， 即 外 部 独立 维护 的 线程 池 类 ， 与 其 他 的 两 个 构造 函数 区 别 很 大 。 这 两 个 构造 函数 用 于 需要 外 部 单独 维护 执行 线程 池 的 情况 。 


第 二 个 和 第 四 个 构造 函数 是 最 常用 的 两 个 ， 上 面 的 简单 配置 代码 中 使 用 的 是 第 二 个 构造 函数 。 这 两 个 构造 函数 的 区 别 是 其 中 的 方法 的 第 二 个 参数 ， 一 个 使 用 byte[ 类 型 ， 另 一 个 使 用 String 类 型 ， 本 质 上 
没有 什么 区 别 。 一 般 情况 下 ， 都 会 选用 这 两 种 方法 中 的 一 种 作为 创建 实例 的 构造 函数 。 


HTable 类 中 实现 的 方法 有 很 多 种 ， 这 里 不 会 罗列 所 有 的 方法 ， 汇 总 分 类 介绍 一 下 最 常用 的 方法 ， 共 包含 4 类 : CRUD 操 作 方法 、 获 取 元 数据 信息 方法 、 获 取 状 态 信息 方法 和 设置 属性 信息 方法 ， 下 面 进 
行 详细 介绍 。 


(1) CRUD 操 作 方法 


CRUD 操 作 是 HTable 最 基本 的 功能 ， 其 中 的 每 类 方法 都 包含 多 种 实现 ， 方 法 API 如 下 : 


// 删 除 

boolean checkAndDelete (byte[] row, byte[] family, byte[] qualifier, byte[] value, Delete delete) 
void delete (Delete delete) 

void delete (List«Delete» deletes) 

// 查 询 

Result get (Get get) 

Result[] get (List«Get» gets) 

ResultScanner getScanner (byte[] family) 

ResultScanner getScanner (byte[] family, byte[] qualifier) 
ResultScanner getScanner (Scan scan) 

// 更 新 


Result increment (Increment increment) 

long  incrementColumnValue (byte[] row, byte[] family, byte[] qualifier. long amount) 

long  incrementColumnValue (byte[] row, byte[] family, byte[] qualifier, long amount, 
boolean writeToWAL) 

// 写 入 

boolean checkAndPut (byte[] row, byte[] family, byte[] qualifier, byte[] value, Put put) 

void put (List<Put> puts) 

void put (Put put) 

// 验 证 是 否 存在 

boolean exists (Get get) 


从 上 面 的 代码 中 可 以 看 到 ， 删 除 、 查 询 、 更 新 、 写 入 的 实现 方法 有 多 种 重 载 。 


1) 删除 、Get 查 询 和 写 入 支持 批量 数据 操作 ; 
2) 查询 方法 包含 Get 和 Scan 两 种 ， 分 别 有 多 种 实现 方法 ; 
3) 更 新 操作 只 针对 长 整 型 变量 ; 


4) 而 验证 是 否 存在 的 方法 exists () 的 参数 是 Get 实 例 ， 本 质 上 该 方法 是 查询 的 一 种 。 


每 类 操作 的 不 同 实现 方法 应 用 在 不 同 的 场景 下 ， 例 如 checkAndPut () 方法 用 在 当 处 理 一 行 记 录 时 ， 不 希望 其 他 客户 端 对 该 行进 行 其 他 处 理 ， 首 先 需要 检测 值 是 否 发 生 改 变 ， 如 果 没 有 则 写 入 ， 如 果 改 
变 则 写 入 失败 。 


检测 后 执行 (Compare-And-Set，CAS) 的 方法 非常 强大 ， 可 以 用 于 解 耦 多 客户 端 操作 ， 经 常用 在 状态 过 渡 和 数据 处 理 中 。HTable 提 供 了 两 种 CAs 状 态 的 方法 : checkAndPut () 和 
checkAndDelete () ， 多 客户 端 操作 中 会 经 常用 到 这 些 方法 。 


(2) 获取 元 数据 信息 方法 


这 里 提 到 的 元 数据 信息 包含 Region 的 位 置信 息 、 客 户 端 配置 信息 、 开 始 和 结束 行 键 、 操 作 超时 时 间 等 。 这 些 方法 并 不 是 最 常用 的 ， 在 某 些 特定 的 场景 下 才 会 使 用 ， 例 如 查看 Region 开 始 和 结束 位 置 ， 方 
法 API 如 下 : 


HRegionLocation getRegionLocation (byte[] row, boolean reload) 
HRegionLocation getRegionLocation (String row) 


NavigableMap«HRegionInfo, ServerName> getRegionLocations () 
org.apache.hadoop.conf.Configuration getConfiguration () 
byte[1[] getStartKeys O 

byte[]1[1 getEndKeys () 

Pair<byte[] []，byte[] []> getStartEndKeys () 

int getOperationTimeout () 


(3) 获取 状态 信息 方法 


状态 信息 包含 是 否 自动 Flush ， 表 是 否 可 用 等 状态 ， 方 法 API 如 下 : 


boolean isAutoFlush () 
static boolean isTableEnabled (org.apache.hadoop.conf.Configuration conf, 
byte[] tableName) 


(4) 设置 属性 信息 方法 


该 部 分 方法 用 于 设置 相关 的 状态 和 属性 信息 ， 例 如 是 否 自动 Flush、 操 作 超时 时 间 、 客 户 端 写 缓存 大 小 等 ， 通 过 这 些 设置 方法 控制 与 连接 和 写 入 相关 的 一 些 属性 ， 可 以 实现 客户 端 性 能 调 优 。 


void setAutoFlush (boolean autoFlush) 


void setAutoFlush (boolean autoFlush, boolean clearBufferOnFail) 
void setOperationTimeout (int operationTimeout) 

void setWriteBufferSize (long writeBufferSize) 

void flushCommits () 


3. 管 理 入 口 类 HBaseAdmin 


HBaseAdmin 类 是 HBase 数 据 库 的 管理 入 口 类 ， 通 过 该 类 可 以 创建 表 、 删 除 表 、 修 改 表 、 罗 列表 名 、 上 线 和 下 线 表 等 表 级 别 的 操作 ， 还 可 以 管理 Region、 负 载 均衡 、 分 裂 与 合并 等 操作 。 


HBaseAdmin 类 的 构造 函数 有 两 类 ， 分 别 具 备 不 同 的 参数 类 型 。 如 图 5-2 所 示 ， 图 中 的 第 一 个 构造 函数 的 参数 是 Configuration ， 通 过 配置 类 初始 化 ; 第 二 个 构造 函数 的 参数 是 HConnection ， 通 过 该 对 
象 初始 化 HBaseAdmin。 


Constructor Summary 


HBaseAdmi n(org. apache. hadoop. conf. Configuration c) 
Constructor 


HBaseAdmin(BHConnection connection) 
1 Constructor for externally managed lConnections. 


图 5-2 HBaseAdmin 类 的 构造 函数 


HBaseAdmin 类 中 实现 的 方法 比 HTable 还 多 ， 这 里 不 会 罗列 所 有 的 方法 ， 汇 总 分 类 介绍 一 下 比较 常用 的 ， 共 包含 4 类 : 表 的 创建 、 删 除 、 修 改 方法 ， 表 的 状态 信息 方法 ，Region 相 关 操 作 方法 ， 快 照相 
关 操 作 方法 和 其 他 方法 ， 详 细 介绍 如 下 。 


(1) 表 的 创建 、 删 除 、 修 改 方法 


该 部 分 方法 包含 表 的 创建 、 删 除 和 修改 三 类 ， 每 类 方法 又 包含 多 种 重 载 方法 ， 从 方法 名 称 上 能 很 好 地 区 分 这 几 种 方法 。 例 如 ， 创 建 表 的 方法 都 以 create 开 头 ， 删 除 都 以 delete 开 头 ， 修 改 操作 相对 特殊 
一 些 ， 因 为 涉及 修改 表 描 述 信息 和 列 族 的 描述 信息 ， 所 以 方法 名 字 不 是 以 某 个 单词 开头 ， 详 细 方 法 列表 如 下 : 


// 创 建 

void createTable (HTableDescriptor desc) 

void createTable (HTableDescriptor desc, byte[] [] splitKeys) 

void createTable (HTableDescriptor desc, byte[] startKey, byte[] endKey, int numRegions) 
MU createTableAsync (HTableDescriptor desc, byte[][] splitKeys) 
// 删 除 

void deleteColumn (byte[] tableName, byte[] columnName) 

void deleteColumn (String tableName, String columnName) 

void deleteSnapshot (byte[] snapshotName) 

void deleteSnapshot (String snapshotName) 

void deleteTable (byte[] tableName) 

void deleteTable (String tableName) 

HTableDescriptor[] deleteTables (Pattern pattern) 
HTableDescriptor[] deleteTables (String regex) 

// 修 改 

void addColumn (byte[] tableName, HColumnDescriptor column) 

void addColumn (String tableName, HColumnDescriptor column) 

void modifyColumn (byte[] tableName, HColumnDescriptor descriptor) 
void modifyColumn (String tableName, HColumnDescriptor descriptor) 
void modifyTable (byte[] tableName, HTableDescriptor htd) 


其 中 ， 每 种 类 别 的 多 种 重 载 方法 都 有 不 同 的 参数 数量 和 参数 类 型 ， 以 适用 于 多 种 情况 。 例 如 ，createTable (HTableDescriptor desc) 只 有 一 个 参数 ， 需 要 创建 一 个 HTableDescriptor 实 例 ， 而 
createTable (HTableDescriptor desc, byte[]startKey, byte[JendKey, int numRegions) 方法 可 以 指定 开始 和 结束 的 行 键 以 及 Region 的 数量 ， 以 更 细 粒 度 的 操作 创建 表 过 程 。 


(2) 表 的 状态 信息 方法 


表 状 态 信息 相关 的 方法 更 多 ， 包 括 上 线 和 下 线 表 以 及 批量 操作 、 获 取 集 群 信息 、 获 取 协 处 理 器 信息 、 获 取 表 描述 信息 、 获 取 表 Region 信 息 、 表 上 线 和 下 线 状态 信息 等 ， 详 细 列 表 如 下 : 


void disableTable (byte[] tableName) 

void disableTable (String tableName) 

void disableTableAsync (byte[] tableName) 

void disableTableAsync (String tableName) 
HTableDescriptor[] disableTables (Pattern pattern) 
HTableDescriptor[] disableTables (String regex) 

void enableTable (byte[] tableName) 

void enableTable (String tableName) 

void enableTableAsync (byte[] tableName) 

void enableTableAsync (String tableName) 
HTableDescriptor[] enableTables (Pattern pattern) 
HTableDescriptor[] enableTables (String regex) 
ClusterStatus getClusterStatus () 

String[] getMasterCoprocessors () 

HTableDescriptor getTableDescriptor (byte[] tableName) 
HTableDescriptor[] getTableDescriptors (List«String» tableNames) 
List«HRegionInfo» getTableRegions (byte[] tableName) 
boolean isMasterRunning () 

boolean isTableDisabled (byte[] tableName) 

boolean isTableDisabled (String tableName) 

boolean isTableEnabled (byte[] tableName) 

boolean isTableEnabled (String tableName) 


(3) Region 相 关 操 作 方法 


Region 相 关 的 操作 方法 属于 HBase 的 高 级 特性 部 分 ， 包 括 Region 分 配 、 负 载 均衡 、Region 的 合并 、 分 裂 、 移 动 等 。 其 中 ， 合 并 与 分 裂 包含 多 种 重 载 方法 ， 并 且 合并 方法 区 分 小 合并 和 大 合并 两 类 ， 每 
类 有 多 种 重 载 方法 。 详 细 代码 如 下 : 


void assign (byte[] regionName) 

void unassign (byte[] regionName, boolean force) 

boolean balancer () 

void closeRegion (byte[] regionname, String serverName) 

void closeRegion (ServerName sn, HRegionInfo hri) 

void closeRegion (String regionname, String serverName) 

boolean closeRegionWithEncodedRegionName (String encodedRegionName, String serverName) 
void compact (byte[] tableNameOrRegionName) 

void compact (byte[] tableNameOrRegionName, byte[] columnFamily) 
void compact (String tableNameOrRegionName) 

void compact (String tableOrRegionName, String columnFamily) 

void majorCompact (byte[] tableNameOrRegionName) 

void majorCompact (byte[] tableNameOrRegionName, byte[] columnFamily) 
void majorCompact (String tableNameOrRegionName) 

void majorCompact (String tableNameOrRegionName, String columnFamily) 
void move (byte[] encodedRegionName, byte[] destServerName) 

void split (byte[] tableNameOrRegionName) 


[ 
void split (byte[] tableNameOrRegionName, byte[] splitPoint) 


void split (String tableNameOrRegionName) 
void split (String tableNameOrRegionName, String splitPoint) 


(4) 快照 相关 操作 方法 


快照 就 是 一 份 元 信息 的 合集 ， 多 许 管理 员 恢复 到 表 的 先前 状态 。 快 照 不 是 表 的 复制 而 是 一 个 文件 名 称 列表 ， 因 而 不 会 复制 数据 。 完 全 快照 恢复 是 指 恢复 到 之 前 的 “ 表 结构 ”以 及 当时 的 数据 ， 快 照 之 后 
发 生 的 数据 不 会 恢复 。 


HBaseAdmin 中 也 提供 了 几 种 快照 的 操作 方法 ， 可 以 根据 表 名 和 快照 名 生成 快照 ， 方 法 API 代 码 列表 如 下 : 


void snapshot (byte[] snapshotName, byte[] tableName) 

void snapshot (HBaseProtos.SnapshotDescription snapshot) 

void snapshot (String snapshotName, String tableName) 

void snapshot (String snapshotName, String tableName, HBaseProtos. 


SnapshotDescription.Type type) 


(5) 其 他 操作 方法 


除了 上 面 提 到 的 表 、Region 和 快照 相关 的 方法 ，HBaseAdmin 中 还 有 其 他 两 类 方法 : flush () 和 listTables () ， 其 中 flush () 方法 用 于 将 表 或 者 Region 在 内 存 中 的 数据 序列 化 到 硬盘 
上 ，listTables () 方法 用 于 罗列 HBase 集 群 上 所 有 的 表 名 ， 方 法 API 细 节 如 下 所 示 : 


void flush (byte[] tableNameOrRegionName) 

void flush (String tableNameOrRegionName) 
HTableDescriptor[] listTables () 
HTableDescriptor[] listTables (Pattern pattern) 
HTableDescriptor[] listTables (String regex) 

4. 连 接 池 类 HTablePool 


假如 多 线程 访问 HBase， 需 要 创建 多 个 HTable 对 象 ， 并 且 需 要 单独 对 每 个 HTable 对 象 进行 维护 其 创建 、 使 用 、 消 亡 的 整个 过 程 ， 这 样 不 但 增加 开发 成 本 ， 也 不 利于 资源 的 合理 利用 ， 同 时 HTable 写 入 
时 不 是 线程 安全 的 。HBase 官 方 提供 了 通过 连接 池 的 方式 使 用 HTable， 即 HTablePool 类 。 该 类 支持 多 线程 使 用 HTable， 并 且 多 线程 同时 写 入 时 是 线程 安全 的 ， 这 非常 类 似 于 MySQL 数 据 库 连 接 池 。 
HTablePool 的 构造 方法 有 4 种 ， 分 别 对 应 不 同 的 情形 ， 如 图 5-3 所 示 。 


Constructor Summary 
HIablcPoolO 

Default 
HTahlePool (org. apache. hadoop. conf. Configuration config, int maxSize) 
Constructor to set maximum versions and use the 


Constructor. 


specified configuration. 


HTahlePool (org. apache. hadoop. conf. Configuration config, int maxSize, HTahleInterfaceFactory tableFactory) 
Constructor to set maximum versions and use the specified configuration and table factory. 
HTablePool (org. apache. hadoop. conf. Configuration config, int maxSize, HIableInterfaceFacrory tableFactorrv, 
PoolMap. PoolType poolType) 
Constructor to set maximum versions and use the specified configuration, table factory and 


pool type. 


HTahlePool (org. apache. hadoop. conf. Configuration config, int maxSize, PociMap. Poollvpe poolType) 
Constructor to set maximum versions and use the specified configuration and pool type. 


图 5-3 HTablePool 类 的 构造 函数 


从 图 5-3 中 可 以 看 出 ， 第 一 个 构造 函数 是 空 构 造 ， 剩 余 三 个 都 有 不 同 数量 的 参数 ， 下 面 的 内 容 将 详细 讲解 有 参数 的 三 种 构造 函数 。 这 三 个 构造 函数 的 第 一 个 参数 都 是 配置 类 ， 这 里 的 配置 类 与 前 面 讲 到 的 
配置 类 一 致 ， 这 里 不 再 累 述 ， 重 点 讲解 其 他 几 个 参数 。 


(1) 连接 池 容量 


参数 maxsize 表 示 这 个 连接 池 的 大 小 ， 默 认 值 是 Integer 类 型 最 大 值 ， 即 Integer.MAX_VALUE。 如 果 使 用 HTablePool 获 取 HTable 时 ，HTablePool 会 维护 线程 池 容量 ， 当 容量 大 于 等 于 最 大 值 时 ， 将 不 
再 添加 线程 到 线程 池 中 。 要 注意 的 是 ， 如 果 线程 个 数 大 于 最 大 值 时 会 导致 写 入 始终 是 自动 Flush。 


其 实 ， 在 HTablePool 使 用 过 程 中 ， 通 过 putTable () 方法 将 新 生成 的 HTable 对 象 添加 到 线程 池 中 ， 添 加 的 同时 进行 最 大 值 判断 。 通 过 getTable () 从 线程 池 中 直接 获取 HTable 对 象 ， 如 果 线 程 池 中 没 
有 ， 则 创建 封装 类 PooledHTable。HTablePool 的 使 用 代码 示例 如 下 : 


Result result = null; 
HTable table - null; 
try { 
table =  (HTable) pool.getTable (tableName) ; 
if (table == null) throw new RuntimeException ("This table is not exist! ") ; 
result = table.get (new Get (Bytes.toBytes ("rk1") ) 2); 
} catch (IOException e) ( 
throw new RuntimeException (e) ; 
)finally ( 
if (table ! = null) { 
try { 
pool.putTable ( (HTableInterface) table) ; 
) catch (IOException e) ( 
e.printStackTrace O ; 
} 
} 
} 


(2) 连接 池 类 型 


HTablePool 类 中 提供 了 三 种 连接 池 类 型 : ReusablePool、RoundRobinPool 和 ThreadLocal-Pool。 默 认 是 ReusablePool。 这 三 种 类 型 的 底层 数据 结构 不 同 ， 但 总 体 实现 都 比较 简单 ， 三 种 类 型 的 介绍 
对 比如 下 : 


* ReusablePool: 底层 使 用 ConcurrentLinkedQueue 实 现 ， 实 现 比 较 简 单 。 


* ThreadLocalPool: 底层 使 用 ThreadLocal 实 现 ，ThreadLocal 为 每 一 个 线程 都 维护 了 自己 独 有 的 变量 拷贝 。 每 个 线程 都 拥有 了 自己 独立 的 一 个 变量 ， 竟 争 条 件 被 彻底 消除 了 ， 


进行 同步 ， 这 样 能 最 大 限度 地 由 CPU 调度 并 发 执行 ， 是 一 种 以 空间 来 换取 线程 安全 性 的 策略 。 访 问 的 性 能 更 高 一 些 。 
: RoundRobinPool: 虽然 将 其 罗列 为 一 种 类 型 但 是 无 法 使 用 。 详 见 HTablePool 的 构造 函数 中 的 代码 实现 。 


(3) 工厂 类 HTableFactory 


那 就 没有 任何 必要 对 这 些 线程 


HTableFactory 用 于 创建 HTable 示 例 的 工厂 类 ， 可 以 自 定义 HTable 的 配置 属性 ， 例 如 自动 Flush、 写 缓存 大 小 等 ， 可 以 为 每 个 HTable 定 义 不 同 的 配置 属性 ， 其 使 用 方法 如 下 : 


Configuration conf = HBaseConfiguration.create () ; 
HTableFactory factory = new HTableFactory O ; 
HTablePool pool = new HTablePool (conf, 30. factory, 
PoolType.ThreadLocal) ; 
Result result - null; 
HTable table = null; 
try { 
table = (HTable) pool.getTable (tableName) ; 
if (table = null) 
throw new RuntimeException ("This table is not exist! ") ; 
result = table.get (new Get (Bytes.toBytes ("rk1") ) ) : 
catch (IOException e) ( 
throw new RuntimeException (e) ; 
finally ( 
if (table ! = null) ( 
try ( 
pool.putTable ( (HTableInterface) table) ; 
) catch (IOException e) { 
e.printStackTrace () ; 


} 


如 果 深 入 HTablePool 代 码 实现 ， 会 发 现 其 实 HTablePool 并 不 是 常规 意义 上 的 线程 池 ， 更 类 似 于 一 个 简单 的 计数 器 实现 。 官 方 还 没有 提供 一 个 更 加 优雅 的 实现 ， 感 兴趣 的 读者 可 以 自己 动手 实现 。 


5.1.2 MER 


下 面 尝 试 使 用 原生 Java 客 户 端的 方式 创建 HBase 表 ， 下 面 的 代码 中 将 创建 一 个 名 为 demo_test 的 表 ， 该 表 拥 有 一 个 列 族 cf1。 


HBaseAdmin admin = new HBaseAdmin (HBaseConfiguration.create () ) ; 
HTableDescriptor tableDesc = new HTableDescriptor ("demo test") ; 
tableDesc.addFamily (new HColumnDescriptor ("cfl") ) ; 
admin.createTable (tableDesc) ; 


当然 ， 上 面 的 代码 只 是 简单 使 用 了 逻辑 ， 还 存在 很 多 需要 改进 的 地 方 。 例 如 ， 如 果 创 建 的 表 已 经 存在 ， 会 抛 出 异常 信息 ， 这 需 


则 可 以 使 用 循环 添加 的 方式 。 


5.1.3 MRE 


使 用 原生 Java 客 户 端 删除 表 与 创建 表 的 操作 不 同 ， 删 除 一 张 表 需 要 分 两 步 进行 : 第 一 步 ， 下 线 表 ; 第 二 步 ， 删 除 表 。 删 除 表 使 


的 也 是 HBaseAdmin 管 理 入 口 类 


在 创建 之 前 先 判断 表 是 否 存在 。 在 添加 列 族 的 时 候 ， 如 果 有 多 个 列 族 ， 


人体 代 码 如 下 : 


try { 

String tablename = "demo test"; 

HBaseAdmin admin = new HBaseAdmin (HBaseConfiguration.create () ) ; 
admin.disableTable (tablename) ; 

admin.deleteTable (tablename) ; 

catch (IOException e) ( 

e.printStackTrace () ; 


5.1.4 ”插入 数据 


an 


Hrh, disableTable () 方法 用 于 下 线 表 ，deleteTable () 方法 用 于 删除 表 。 与 创建 表 操作 相同 ， 如 果 删 除 的 表 不 存在 ， 也 会 抛 出 异常 信息 ， 


所 以 在 删除 之 前 最 好 判断 表 是 否 存在 。 


和 面 的 操作 已 经 创建 了 一 张 demo_test 表 ， 接 下 来 向 该 表 中 插入 数据 。 向 该 表 中 插入 一 条 行 键 是 row1， 列 族 是 cf1， 列 名 是 id， 时 间 戳 是 10L， 值 为 23872 的 数据 ， 代 码 如 下 : 


HTable table = null; 
try { 
table = new HTable (HBaseConfiguration.create () , 
Bytes.toBytes ("demo test") ) 
Put put = put = new Put (Bytes.toBytes ("rowl") , 101); 
put.add (Bytes.toBytes ("cfl") , Bytes.toBytes ("id") ， 
Bytes.toBytes ("23872") ) ; 
table.put (put) ; 
catch (IOException e) ( 
e.printStackTrace () ; 
finally ( 
if (null! = table) ( 
try ( 
table.close O ; 
) catch (IOException e) { 
e.printStackTrace () ; 


$ 


从 上 面 的 代码 中 可 以 看 到 ， 使 用 HTable 类 操作 数据 写 入 的 整个 过 程 分 为 三 个 步骤 : 第 一 步 ， 初 始 化 HTable 类 ; 第 二 步 ， 构 造 Put 实 体 类 ， 该 类 封装 写 入 数据 ; 第 三 步 ， 执 行 写 入 操作 。 第 二 步 中 有 很 多 


细节 需要 讲解 ， 重 点 介绍 Put 类 构造 函数 和 已 实现 方法 。 


Put 类 的 构造 函数 有 6 个 ， 分 别 具 备 不 同 的 参数 类 型 ， 如 图 5-4 所 示 。 其 中 ， 第 四 个 和 第 五 个 已 经 过 期 ， 第 一 个 和 第 


NV 
六 个 和 


民 少 用 到 ， 下 面 


7] 


的 内 容 | 


罩 绕 第 二 个 和 第 三 个 构造 函数 


展开 。 


Constructor Summary 


Put () 
Constructor for Writable. 
Put(brte[] row) 
Create a Put operation for the specified row. 


Put(byte[] row, long ts) 
Create a Put operation for the specified row, using 


Put(byte[] row, long ts, RowLock rowLock) 


Put(brtel] row, RowLock rowLock) 


Put (Put putToCopy) 
Copy constructor. 


5-4 ”Put 类 的 构造 函数 


a given timestamp. 


Deprecated. Remiock and associated operations are deprecated, use Put(byteil long) 


Deprecated. £orLock and associated operations are deprecated, use Putíbricil) 


第 二 个 和 第 三 个 构造 函数 的 共性 是 : CESET, Kbyte MEZNE, HT S82 tssen 5A RTTE, nIAL, EPUA, TAE 


时 间 戳 变量 。 该 时 间 戳 是 长 整 型 ， 并 且 该 值 可 以 根据 实际 需要 定义 ， 并 不 一 定 是 实际 的 UNIX 时 间 戳 。 


Put 类 中 的 方法 并 不 算 多 ， 可 以 将 这 些 方法 划分 成 三 类 : 添加 字段 、 获 取 键 值 对 和 判断 是 否 存在 ， 方 法 描述 如 下 : 


// 添 加 字段 

Put add (byte[] family, byte[] qualifier, byte[] value) 

Put add (byte[] family, byte[] qualifier, long ts. byte[] value) 
Put add (KeyValue kv) 

// 获 取 键 值 对 

List«KeyValue» get (byte[] family, byte[] qualifier) 

// 判 断 是 否 存在 

boolean has (byte[] family, byte[] qualifier) 

boolean has (byte[] family, byte[] qualifier, byte[] value) 
boolean has (byte[] family, byte[] qualifier, long ts) 

boolean has (byte[] family, byte[] qualifier, long ts, byte[] value) 


ERDA. AFERA EHE 
系统 当前 时 间 ， 如 果 在 初始 化 Put 实 例 的 时 候 已 经 对 时 间 戳 赋值 ， 则 使 


其 中 ， 添 加 字段 和 判断 是 否 存在 两 类 都 包含 多 种 名 
qualifier ( 列 名 ) 和 value (f&) ， 其 时 间 惟 默认 使 


载 方法 是 开发 过 程 中 最 常用 的 。add (byte[family，byte[lqualifier，byte[lvalue) 方法 有 三 个 参数 : family ( 列 族 ) 、 


用 该 值 。add (byte[Ifamily, byte[]qualifier, long ts，byte[lvalue) 方法 比 之 


前 一 个 方法 多 一 个 参数 : 时 间 惟 ts。 该 参数 也 是 对 单元 格 的 时 间 戳 字段 赋值 。 这 里 的 赋值 比 之 初始 化 Put 实 例 时 的 赋值 优先 级 更 高 ， 如 果 初 始 化 Put 实 例 和 用 此 add () 方法 同时 赋值 ， 则 使 用 此 方法 的 赋 


值 。 


add (KeyValue kv) 方法 的 参数 是 KeyValue 实 例 ， 需 要 首先 构造 KeyValue 实 例 ， 构 造 代码 如 下 : 


KeyValue kv = new KeyValue (row, family, qualifier, ts, KeyValue.Type.Put, value); 


5.3.5 “查询 数据 


原生 Java 客 户 端 有 两 种 查询 数据 的 方式 : 单行 读 和 扫描 读 。 其 中 ， 单 行 读 使 用 HTable 类 的 get (Get) 方法 ， 参 数 是 Get 实 体 类 ; 扫描 读 使 


。 下 面 详细 介绍 这 两 种 数据 查询 方式 。 
1 单行 读 


单行 读 就 是 查询 表 中 的 某 一 行 记录 ， 可 以 是 一 行 记录 的 全 部 字段 ， 可 以 是 某 个 列 族 的 全 部 字段 ,或 者 某 一 个 字段 。 单 行 


HTable 类 的 getScanner (Scan) 方法 ， 参 数 是 Scan 实 体 


读 的 示例 代码 如 下 : 


HTable table = new HTable (HBaseConfiguration.create () , 
Get get = new Get (Bytes.toBytes ("rowl") ) ; 
get.addColumn (Bytes.toBytes ("cfl") , Bytes.toBytes ("id") ) ; 
Result dbResult = table.get (get) ; 
try { 

System.out.println ("size-" + dbResult.size () + ", value-" + 

Bytes.toString (dbResult.list O) .get (0) .getValue O) ) ) ; 

} catch (Exception e) { 

e.printStackTrace () ; 


Bytes.toBytes ("demo test") ) ; 


从 上 面 的 示例 代码 中 可 以 看 到 ， 整 个 单行 读 过 程 分 为 三 步 : 第 一 步 ， 初 始 化 HTable 实 例 ; 第 二 步 ， 构 造 实体 类 Get，Get 类 封装 所 需 的 行 键 、 列 族 、 列 名 ; 第 三 步 ， 执 行 查询 并 打印 结果 。 其 中 ， 实 体 


类 Get 是 一 个 新 的 AP1， 接 下 来 详细 介绍 一 下 该 类 的 构造 函数 和 主要 已 实现 方法 。 


Get 类 的 构造 函数 有 三 个 ， 分 别 具 备 不 同 的 参数 类 型 ， 如 图 
byte[] 数 组 。 


5-5 所 示 。 其 中 ， 第 一 个 为 Writable 服 务 ， 第 三 个 已 经 过 期 。 


Constructor Summary 


Constructor for Writable. 
Gettbyte[] rov) 
Create a Get operation for the specified row. 


所 以 需要 关注 的 只 有 第 二 个 构造 函数 。 第 二 个 构造 函数 的 参数 是 行 键 ， 类 型 是 


Get(byte[] row, RowLock rowLock) 


Deprecated. Romrzocx is deprecated, use Cetíbvte[]). 


Get 类 的 构造 函数 


5-5 


Get 类 中 的 主要 实现 方法 可 以 划分 成 三 类 : 添加 列 或 列 族 、 设 置 查询 属性 和 查看 属性 信息 ， 方 法 描述 如 下 所 示 : 


// 添 加 列 或 列 族 

Get addColumn (byte[] family, byte[] qualifier) 
Get addFamily (byte[] family) 

// 设 置 查询 属性 

void setCacheBlocks (boolean cacheBlocks) 

Get setFilter (Filter filter) 

Get setMaxVersions () 

Get setMaxVersions (int maxVersions) 

Get setTimeRange (long minStamp, long maxStamp) 


Get setTimeStamp (long timestamp) 

// 查 看 属性 信息 

Set<byte[]>familySet () 

boolean getCacheBlocks () 

Map<byte[], NavigableSet<byte[]>> getFamilyMap () 
Filter getFilter () 

Map<String, Object> getFingerprint () 
long getLockId () 

int getMaxVersions () 

byte[] getRow () 

RowLock getRowLock () 

TimeRange getTimeRange () 

boolean hasFamilies () 

int numFamilies () 


其 中 ， 添 加 列 或 列 族 、 设 置 查询 属性 是 最 常用 的 两 类 方法 。addColumn () 方法 用 于 添加 单个 列 ，addFamily () 方法 用 于 添加 单个 列 族 。 


设置 查询 属性 的 方法 能 够 更 细 粒 度 地 控制 查询 操作 。setCacheBlocks () 方法 可 以 设置 是 否 使 用 BlockCache， 用 于 提升 查询 性 能 。setFilter () 方法 用 于 设置 过 滤器 ， 例 如 键 值 过 滤器 、 列 名 过 滤器 
等 。setMaxVersions () 方法 用 于 控制 查询 返回 的 版 本 数量 ， 该 方法 默认 返回 所 有 版 本 ， 即 Integer 类 型 的 最 大 值 。setMaxVersions (int) 方法 用 于 设置 返回 多 少 版 本 ，int 类 型 参数 表示 返回 版 本 数量 。 
setTimeRange (long) 方法 用 于 设置 返回 哪个 时 间 戳 的 版 本 ， 如 果 不 命中 ， 则 返回 小 于 等 于 参数 值 的 最 接近 的 版 本 。setTimeRange (long, long) 方法 用 于 设置 返回 版 本 的 时 间 戳 区 间 ， 第 一 个 参数 是 
开始 时 间 戳 ， 第 二 个 参数 是 结束 时 间 戳 ， 第 一 个 参数 应 该 小 于 第 二 个 参数 。 


回 


查看 属性 信息 方法 用 于 查看 Get 类 已 经 设置 的 一 些 属性 信息 ， 例 如 最 大 版 本 数量 、 行 键 、 锁 ID、 列 族 数量 等 。 这 些 方法 并 不 常用 ， 实 际 应 用 中 使 用 最 多 的 还 是 通过 设置 相关 查询 条 件 获取 符合 条 件 的 
f&. 


2. 扫 描 读 


扫描 读 一 般 是 在 不 确定 行 键 的 情况 下 ， 遍 历 全 表 或 者 表 的 某 部 分 数据 。 当 然 ， 饥 历 过 程 中 也 可 以 细 粒 度 控制 ， 如 时 间 戳 、 版 本 数量 、 列 族 和 列 名 等 。 扫 描 读 的 示例 代码 如 下 : 


HTable table = new HTable (HBaseConfiguration.create () , Bytes.toBytes ("demo test") ) ; 
Scan scanner - new Scan () ; 
/* version */ 
scanner.setTimeRange (startTime, endTime) ; 
/* columns */ 
for (String col: columns) ( 
byte[][] colkey = KeyValue.parseColumn (Bytes.toBytes (col) ) ; 
if (colkey.length > 1) ( 
scanner.addColumn (colkey[0], colkey[1]) : 
) else ( 
scanner.addFamily (colkey[0]) ; 
} 


} 
/* batch and caching */ 
scanner.setBatch (0) ; 
scanner.setCaching (100000) ; 
ResultScanner rsScanner = table.getScanner (scanner) ; 
for (Result res : rsScanner) { 
final List«KeyValue» list = res.list O ; 
for (final KeyValue kv : list) { 
kv.getTimestamp () ; 
System.out.println (getRealRowKey (kv) ) ; 
į 


rsScanner.close () ; 


从 上 面 的 示例 代码 中 可 以 看 到 ， 整 个 扫描 读 过 程 分 为 三 步 : 第 一 步 ， 初 始 化 HTable 实 例 ; 第 二 步 ， 构 造 实体 类 Scan，Scan 类 封装 所 需 的 列 族 、 列 名 和 其 他 属性 设置 ; 第 三 步 ， 执 行 查询 并 输出 结果 。 
其 中 ， 实 体 类 Scan 是 一 个 新 的 AP1， 接 下 来 详细 介绍 一 下 该 类 的 构造 函数 和 主要 已 实现 方法 。 


Scan 类 的 构造 函数 有 6 个 ， 分 别 具 备 不 同 的 参数 类 型 ， 如 图 5-6 所 示 。 其 中 ， 每 个 构造 函数 都 很 常用 ， 多 数 情况 下 在 不 同 的 场景 下 都 会 用 到 。 


Constructor Summary 


Scan(byte[] startRew) 
Create a Scan operation starting at the specified row. 


Senn(byte[] startRow, Filter filter) 


Scantest get) 


Builds a scan object with the same specs as get. 


Scan (Scan scan: 
Creates a new instance of this class while copying all values. 


图 5-6 Scan 类 的 构造 函数 


在 图 5-6 展 示 的 构造 函数 中 ， 第 一 个 构造 函数 是 空 构造 ， 该 方式 使 用 很 频繁 。 第 二 个 构造 函数 中 有 一 个 参数 : 开始 行 键 ， 也 就 是 表示 从 表 的 哪 一 行 开始 扫描 。 而 第 三 个 构造 函数 的 参数 既 有 开始 行 键 ， 又 
有 结束 行 键 ， 表 示 扫 描 表 的 某 一 段 区 域 。 第 四 个 构造 函数 的 第 一 个 参数 表示 开始 行 键 ， 第 二 个 参数 表示 过 滤器 ， 可 以 通过 设置 过 滤器 的 方式 进行 数据 过 滤 ， 提 升 访问 性 能 。 第 五 个 构造 函数 参数 是 Get 实 
例 ， 该 构造 函数 表示 使 用 Scan 实现 Get， 实 际 上 ，Get 方 法 内 部 也 是 使 用 Scan 去 实现 的 。 第 六 个 构造 函数 可 以 将 另 一 个 Scan 实例 的 所 有 属性 都 复制 到 本 Scan 实例 中 ， 参 数 是 Scan 实例 。 


Scan 类 中 的 主要 实现 方法 可 以 划分 成 三 类 : 添加 列 或 列 族 、 设 置 查询 属性 和 查看 属性 信息 ， 方 法 描述 如 下 : 


// 添 加 列 或 列 族 


Scan addColumn (byte[] family, byte[] qualifier) 
Scan , addFamily (byte[] family) 
// 设 置 查询 属性 


void setBatch (int batch) 


void setCacheBlocks (boolean cacheBlocks) 

void setCaching (int caching) 

Scan setFamilyMap (Map<byte[]，  NavigableSet«byte[]»» familyMap) 
Scan setFilter (Filter filter) 

Scan setMaxVersions () 

Scan setMaxVersions (int maxVersions) 

void setRaw (boolean raw) 

Scan setStartRow (byte[] startRow) 

Scan setStopRow (byte[] stopRow) 

Scan setTimeRange (long minStamp, long maxStamp) 
Scan setTimeStamp (long timestamp) 

// 查 看 查询 属性 

int getBatch () 

boolean getCacheBlocks () 

int getCaching () 

byte[][] getFamilies () 

Map<byte[], NavigableSet«byte[]»» getFamilyMap () 
Filter getFilter () 

Map«String, Object» getFingerprint () 

int getMaxVersions () 

byte[] getStartRow () 

byte[] getStopRow () 

TimeRange getTimeRange () 

boolean hasFamilies () 

boolean hasFilter () 

boolean isGetScan O 

boolean isRaw () 

int numFamilies () 


对 比 Get 和 Scan 类 的 实现 方法 会 发 现 ， 它 们 很 多 方法 都 是 一 样 的 ， 对 于 相同 的 方法 这 里 不 再 累 述 ， 只 介绍 与 Get 类 存在 区 别 的 方法 。 其 中 ，setRaw () 方法 


于 设置 行 键 ， 如 果 设置 了 行 键 ， 则 等 同 于 


Get 类 的 使 用 ; setStartRow () 和 setStopRow () 方法 
是 ，Scan 类 也 可 以 使 用 过 滤器 ， 对 于 扫描 操作 来 讲 ， 设 置 过 滤器 比 单行 读 更 重要 。 


5.1.6 ”删除 数据 


删除 操作 也 是 原生 Java 客 户 端 所 支持 的 CRUD 操 作 之 一 ， 下 面 将 介绍 如 何 使 用 HTable 类 实现 删除 数据 。 原 生 Java 客 户 端 的 删除 操作 可 以 删除 整 行 、 


代码 示例 中 就 包含 删除 某 个 单元 格 、 某 个 列 、 某 个 列 族 的 操作 。 


于 设置 扫描 的 开始 和 结束 行 键 。 查 看 查询 属性 类 别 中 也 有 一 些 有 关 设置 开始 和 结束 行 键 的 方法 ， 其 他 的 


方法 与 Get 类 都 相同 。 值 得 注意 的 


某 个 列 族 、 某 个 列 ， 也 可 以 删除 某 个 单元 格 。 下 面 的 


HTable table = null; 
try { 

table = new HTable (HBaseConfiguration.create () , 
) catch (IOException e) ( 

e.printStackTrace () ; 


"demo test") ; 


} 
Delete del = new Delete (Bytes.toBytes ("rowl") ); 
del.deleteColumn (Bytes.toBytes ("Cf1l") , Bytes.toBytes ("id"), 1); 
del.deleteColumns (Bytes.toBytes ("cfl") , Bytes.toBytes ("id") ) ， 
del.deleteFamily (Bytes.toBytes ("cfl") ) ; 
try { 
table.delete (del) ; 
) catch (IOException e) ( 
e.printStackTrace O ; 
} 


从 上 面 的 示例 代码 中 可 以 看 到 ， 整 个 删除 过 程 分 为 三 步 : 第 一 步 ， 初 始 化 HTable 实 例 ;， 第 二 步 ， 构 造 实体 类 Delete，Delete 类 封装 所 需 的 行 键 、 列 族 或 者 列 名 ; 第 三 步 ， 执 行 删除 。 其 中 ， 实 体 类 


Delete 是 一 个 新 的 AP1， 接 下 来 详细 介绍 一 下 该 类 的 构造 函数 和 主要 已 实现 方法 。 


Delete 类 的 构造 函数 有 5 个 ， 分 别 具 备 不 同 的 参数 类 型 ， 如 图 5-7 所 示 。 其 中 ， 第 一 个 为 Writable 服 务 ， 第 四 个 已 经 过 期 ， 第 五 个 一 般 上 


Constructor Summary 
Dclctc( 


Constructor for Writable. 
Delete (eU row) 


Create a Delete operation for the specified row. 


Delete(bytel] row, long timestamp) 
Create a Delete operation for the specified row and timestamp. 


Delete bytel] row, long timestamp, RcwLock rowLock) 


Deprecated. fotost is deprecated, use D 


不 到 。 所 以 最 需要 关注 的 是 第 二 个 和 第 三 个 构造 函数 。 


5-7 Delete 类 的 构造 函数 


第 二 个 和 第 三 个 构造 函数 的 第 一 个 参数 都 是 行 键 ， 由 此 可 以 得 出 结论 : 删除 时 必须 指定 某 一 行 。 第 三 个 构造 函数 的 第 二 个 参数 是 时 间 戳 ， 表 示 指 定 删除 某 个 版 本 的 单元 格 。 


Delete 类 中 的 主要 实现 方法 比较 少 ， 主 要 是 列 族 、 列 和 时 间 戳 相关 的 几 种 方法 ， 方 法 描述 如 下 所 示 : 


Delete deleteColumn (byte[] family, byte[] qualifier) 

Delete deleteColumn (byte[] family, byte[] qualifier, long timestamp) 
Delete deleteColumns (byte[] family, byte[] qualifier) 

Delete deleteColumns (byte[] family, byte[] qualifier, long timestamp) 
Delete deleteFamily (byte[] family) 

Delete deleteFamily (byte[] family, long timestamp) 

void | setTimestamp (long timestamp) 


于 删除 某 个 列 的 所 有 版 本 ; deleteFamily () 方法 


于 删除 某 个 列 的 某 个 版 本 ; deleteColumns () 方法 


其 中 ，deleteColumn () 方法 


作 的 时 间 戳 。 
54.7 ”过 滤 查 询 


前 面 已 经 讲 到 Get 和 Scan 实例 都 可 以 配置 过 滤器 ， 应 
询 的 示例 。 使 用 分 页 过 滤器 的 示例 代码 如 下 : 


于 删除 某 个 列 族 ; setTimestamp () 方法 用 于 设 定 删 除 操 


于 RegionServer 以 提升 查询 性 能 。 因 为 在 后 面 章节 中 会 详细 介绍 过 滤器 的 概念 和 分 类 的 知识 ， 这 里 将 简单 介绍 一 下 查询 中 使 用 过 滤器 一 一 过 滤 查 


//1 

Filter filter = new PageFilter (15) ; 
int totalRows = 0; 

byte[] lastRow = null; 


//2 
while (true) ( 


//3 

Scan scan = new Scan O) ; 
//4 

scan.setFilter (filter) ; 
L5 

if (lastRow ! = null) ( 


byte[] startRow = Bytes.add (lastRow, POSTFIX) ; 
System.out.println ("start row: " 
+ Bytes.toStringBinary (startRow) ) ; 
scan.setStartRow (startRow) ; 

} 

// 6 

ResultScanner scanner = table.getScanner (scan) ; 

int localRows = 0; 

Result result; 


while ( (result = scanner.next (0D ) ! = null) { 
System.out.println (localRows-t + ": " + result) ; 
totalRows++; 
localRows++; 
lastRow = result.getRow () ; 
} 
XET 
scanner.close () ; 
// 8 
if (localRows == 0) 
break; 
} 
System.out.println ("total rows: " + totalRows) ; 


上 面 代码 中 已 经 标注 了 整个 流程 分 为 8 个 步骤 ， 每 个 步骤 的 详细 解释 如 下 : 


步骤 1: 创建 过 滤器 PageFilter。 该 过 滤器 是 按 行 分 页 的 过 滤器 ， 参 数 15 表 示 每 个 分 页 有 15 行 记录 。 


步骤 2: 进入 循环 。 为 了 遍历 所 有 符合 条 件 的 数据 ， 需 要 循环 输出 。 


步骤 3: 初始 化 Scan 实例 。 该 实例 用 于 查询 符合 条 件 的 数据 。 


步骤 4: 设置 过 滤器 。 将 前 面 创建 好 的 分 页 过 滤器 设置 到 Scan 实例 中 。 


步骤 5: 设置 遍历 的 开始 位 置 。 即 表 中 开始 的 行 键 位 置 ， 如 果 是 第 一 次 循环 ， 则 跳 过 该 步骤 。 


步骤 6: 执行 查询 。 使 用 HTable 实 例 执行 扫描 查询 ， 并 且 将 扫描 结果 输出 ， 并 且 给 行 键 变 量 赋值 。 


步骤 7: 关闭 ResultScanner 实 例 。 使 用 完 ResultScanner 实 例 ， 为 了 不 引发 服务 器 端 问题 ， 最 好 关闭 ResultScanner 实 例 。 


步骤 8: 跳出 循环 条 件 。 


从 上 面 的 执行 步骤 可 以 看 到 ， 过 滤器 设置 其 实 非 常 简单 ， 先 创建 过 滤器 ， 然 后 为 Scan 实例 配置 过 滤器 即 可 。 需 要 注意 的 是 ， 过 滤器 的 种 类 非常 之 多 ， 大 概 有 三 十 几 种 ， 这 些 过 滤器 都 在 


org.apache.hadoop.hbase.filter 包 中 ， 感 兴趣 的 读者 可 以 阅读 10.1 节 。 


5.2 ”使 用 HBase Shell 工 具 操 作 HBase 


HBase 的 Shell 工 具 是 很 常用 的 工具 ， 运 维 过 程 的 DDL 和 DML 都 会 通过 此 进行 ， 其 具体 实现 是 用 Ruby 语 言 编写 的 ， 并 且 使 用 了 JRuby 解 释 器 。 该 工具 有 两 种 常 


互 模式 用 于 实时 随机 访问 ， 而 命令 批 处 理 模式 通过 使 用 Shell 编 程 来 批量 、 流 程 化 处 理 访问 命令 ， 常 用 于 HBase 集 群 运 维和 监控 中 的 定时 执行 任务 。 本 小 节 


5.2.1 命令 分 类 


选择 一 台 HBase 集 群 的 节点 (最 好 是 客户 端 节点 ) ， 进 入 HBase 安 装 目录 后 执行 下 面 的 命令 : 


的 模式 : 交互 模式 和 命令 批 处 理 模式 。 
主要 介绍 交互 模式 这 种 方式 。 


bin/hbase shell 


然后 会 看 到 下 面 的 输出 信息 : 


HBase Shell; enter 'help<RETURN>' for list of supported commands. 
Type "exit«RETURN»" to leave the HBase Shell 

Version 0.94.0, r1332822, Tue May 1 21: 43: 54 UTC 2012 

hbase (main) : 001: 0» 


此 时 已 经 进入 HBase Shell 交 互 模式 ， 在 该 模式 中 执行 help 命 令 ， 执 行 后 部 分 输出 信息 如 下 : 


COMMAND GROUPS: 
Group name: general 
Commands: status, version 
Group name: ddl 
Commands: alter, alter async, alter status, create, describe, disable, 
disable all, drop. drop all, enable, enable all, exists, is disabled, 
is enabled. list, show filters ul ui 
Group name: dml 
Commands: count, delete, deleteall, get, get counter, incr, put, scan, truncate 
Group name: tools 
Commands: assign, balance switch, balancer, close region, compact, flush, 
hlog roll, major compact, move, split, unassign, zk dump 
Group name: replication 
Commands: add peer, disable peer, enable peer, list peers, remove peer, 
start replication, stop replication 
Group name: security 
Commands: grant, revoke, user permission 
SHELL USAGE: 
Quote all names in HBase Shell such as table and column names.  Commas delimit 
command parameters. Type «RETURN» after entering a command to run it. 
Dictionaries of configuration used in the creation and alteration of tables are 
Ruby Hashes. They look like this: 


{ key1' => 'valuel', 'key2' -»'value2', http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/0OEBPS/Text/...) 


从 上 面 的 输出 信息 可 以 看 到 ，Shell 的 所 有 命令 可 以 分 为 6 组 : 常规 (General) , DDL, DML, T. 


方法 。 


(Tools) 


、 复 制 (Replication) 和 安全 (Security) 。 下 


Ej 


的 内 容 将 详细 讲解 这 些 命 


令 的 含义 和 使 


5.2.2 ”常规 命令 


常规 命令 只 有 两 种 : 集群 状态 命令 status 和 HBase 版 本 命令 version， 下 面 详 细 介绍 这 两 种 命令 的 使 用 方式 。 


1. 集 群 状态 命令 status 


该 命令 用 于 查看 整个 集群 的 状态 信息 ， 在 交互 模式 下 ， 执 行 status 命 令 如 下 : 


hbase (main) : 003: 0> status 
3 servers, 0 dead, 3.3333 average load 


从 上 面 代码 的 返回 信息 可 以 看 出 ， 该 集群 共有 三 台 RegionServer， 在 没有 “ 死 掉 ” 的 RegionServer 中 ， 平 均 每 台 RegionServer 上 有 3.3333 个 Region (平均 值 ， 即 Region 总 数 除 以 RegionServer 总 
数 ) 。 


2.HBase 版 本 命令 version 


该 命令 用 于 查看 集群 的 HBase 版 本 信息 ， 在 交互 模式 下 ， 执 行 version 命 令 如 下 : 


hbase (main) : 004: 0> version 
0.94.0, r1332822, Tue May 1 21: 43: 54 UTC 2012 


从 上 面 代码 的 返回 信息 可 以 看 出 ， 一 共 包含 由 逗号 分 隔 的 三 个 部 分 : 第 一 部 分 0.94.0 是 HBase 的 版 本 号 ， 第 二 部 分 r[1332822 是 版 本 修订 号 ， 第 三 部 分 是 编译 HBase 的 时 间 。 


5.2.3 DDL 命令 


DDL 命 令 ， 即 数据 定义 语言 命令 ， 包 合 的 命令 非常 丰富 ， 用 于 管理 表 相关 的 操作 ， 包 括 创建 表 、 修 改 表 、 上 线 和 下 线 表 、 删 除 表 、 罗 列表 等 操作 ， 这 些 命令 的 详细 解释 和 使 用 实例 如 表 5-1 所 示 。 


表 5-1 DDL 命 令 列 表 

$ e 他 信使 用 实 全 
alter 修改 表 的 列 族 的 描述 属性 alter 't1', NAME => 'fl' VERSIONS => 5 
异步 修改 表 的 列 族 的 描述 属性 ， 并 不 需要 等 待 
所 有 Region 都 完成 操作 。 用 法 与 alter 命令 相同 


获取 alter 命令 的 状态 ， 会 标注 已 经 有 多 少 
Region 更 改 了 Schema。 命 令 的 参数 是 表 名 


alter async alter async 'tl', NAME => 'fl', VERSIONS => 5 


alter status alter status 't1' 


create 't1', (NAME => 'fl', VERSIONS => 5j 


aano create 't1*, "FD. £2! £3! 
describe 获取 表 的 元 数据 信息 和 是 否 可 用 的 状态 describe 't1' 

disable disable 't1' 

disable all 下 线 所 有 匹配 正则 表达 式 的 表 disable all 't.*' 

drop 删除 某 个 表 drop 't1' 

drop all 删除 所 有 匹配 正则 表达 式 的 表 drop all 't.*' 

enable enable 't1' 


enable all enable all 't.*' 
exists Joni c exists 't1' 

is disabled 判断 某 个 表 是 否 下 线 is disabled 't1' 
is enabled 判断 某 个 表 是 否 在 线 is enabled 't1' 
show filters 查看 所 支持 的 所 有 过 滤 需 的 名 称 show filters 
list 罗列 所 有 表 名 和 list 


表 5-1 中 罗列 的 命令 使 用 示例 有 些 是 比较 简单 的 ， 如 create 命 令 的 使 用 说 明 如 下 : 


Here is some help for this command: 

Create table; pass table name, a dictionary of specifications per 
column family, and optionally a dictionary of table configuration. 
Dictionaries are described below in the GENERAL NOTES section. 


Examples: 
hbase» create 't1', (NAME => 'f1', VERSIONS => 5) 
hbase» create 'tl', (NAME => 'f1'), (NAME => 'f2'), (NAME => 'f3') 
hbase» # The above in shorthand would be the following: 
hbase» create 'tl', 'f1', 'f2', 'f3' 
hbase» create 'tl', (NAME => 'f1', VERSIONS => 1, TTL => 2592000. BLOCKCACHE => true) 
hbase» create 'tl', 'f1', {SPLITS => ['10', '20', '30', '40']} 
hbase» create 'tl', 'fl', (SPLITS FILE => 'splits.txt'] 
hbase» # Optionally pre-split the table into NUMREGIONS, using 
hbase» 4 SPLITALGO ("HexStringSplit", "UniformSplit" or classname) 
hbase» create 'tl', 'f1', (NUMREGIONS => 15, SPLITALGO => 'HexStringSplit'] 


其 中 ， 罗 列 了 7 种 不 用 的 使 用 实例 ， 每 一 行 都 代表 一 种 不 同 的 使 用 方式 ，create't1 ，{NAME=> f1 ，VERSIONS=>5} 样 例 将 会 创建 一 个 名 字 为 t1， 列 族 名 为 fl ， 该 列 族 版 本 数 为 5 的 表 ; 


create't1'，'f1'，'f2'，'f3' 样 例 将 会 创建 一 个 名 字 为 t1， 同 时 拥有 三 个 列 族 f1、f2、f3 的 表 。 


这 里 需要 重点 说 明 的 是 ，HBase Shell 命 令 中 的 表达 式 符号 与 其 他 语言 不 同 ， 特 别 是 列 族 中 的 符号 使 用 ， 使 有 


. => 表 示 赋 值 ， 如 {NAME=>'fl'; 


: 字符 串 必 须 使 用 单 引号 引起 ， 如 fl ; 


规则 如 下 : 


“ 如 果 指定 列 族 的 特定 属性 ， 需 要 使 用 花 括 号 括 起 ， 如 {NAME=>'fl',，VERSIONS=>5}。 


如 果 不 确 定 某 个 命令 的 使 用 方法 ， 可 以 直接 查看 该 命令 的 使 用 说 明 ， 在 交互 模式 下 执行 下 面 代码 : 


help "S(COMMAND NAME]" 


524 ”DML 命令 


DML 命 令 ， 即 数据 操纵 语言 命令 ， 包 含 


A 
< 


的 命令 非常 丰富 ， 用 于 数据 的 写 入 、 删 除 、 修 改 、 查 询 、 清 空 等 操作 ， 这 些 命 令 的 详细 解释 和 使 用 示例 如 表 5-2 所 示 。 


count 统计 表 的 总 行 数 


delete 删除 一 


deleteall 


个 单元 格 


get counter | PUO ÄTS 


a 


put 数据 写 人 


Scan 


truncate 


表 5-2 中 罗列 了 每 种 方法 的 使 


实例 ， 其 


中 不 少 命令 包含 多 种 不 


5-2 ”DML 命令 列表 


命令 使 用 实例 
count 't1' 
count 't1', INTERVAL => 100000 
count 't1', CACHE => 1000 
count 't1', INTERVAL => 10, CACHE => 1000 
delete 't1', 'r1', 'cl', tsil 
deleteall 't1', 'r1' 
deleteall 't1', 'r1', 'c1' 
deleteall 't1', 'r1', 'c1', tsl 
get 't1', TI 
get 't1', 'r1', TIMERANGE => [tsl, ts2]] 
get 't1', 'r1', (COLUMN => 'c1'} 
get 't1', 'r1', {COLUMN => ['c1', 'c2', 'c3"]} 
get 't1', 'r1', {COLUMN => 'cl', TIMESTAMP = ts1} 
get 't1', 'r1', {COLUMN => 'cl', TIMERANGE = [ts1, ts2]. VERSIONS => 4} 
get 't1', 'r1', {COLUMN => 'cl', TIMESTAMP = ts1, VERSIONS => 4} 
get 't1', 'r1', {FILTER => "ValueFilter(=, 'binary:abc')"} 
perti T er 
get tI Tl er "ez 
get tL F1 Ferye] 


\ "b 
at 
— 


命令 使 用 实例 
get counter 't1', 'r1', 'c1' 
CETIS "EE CE 
IHCE ELS £15. 617.4. 
put 't1', 'r1', 'c1', value, tsl 
scan ''META.' 
scan 'META.', (COLUMNS => 'info:regioninfo'] 
scan 't1', (COLUMNS => ['c1', 'c27]. LIMIT => 10, STARTROW => 'xyz') 
scan 't1'. [COLUMNS => 'cl', TIMERANGE => [1303668804, 1303668904]] 
scan 't1', (FILTER => "(PrefixFilter ('row2') AND (QualifierFilter (>=, 


'"binary:xyz'))) AND (TimestampsFilter ( 123, 456))") 


truncate 't1' 


的 使 用 方法 ， 这 些 方法 应 用 在 不 用 的 应 用 场景 下 。 类 似 get、scan 这 样 的 命令 ， 使 用 方法 可 能 有 十 几 种 ， 这 充分 体现 了 HBase API 和 


Shell 工 具 的 多 样 性 和 灵活 性 。 由 于 这 两 个 命令 的 使 用 方法 充分 代表 了 DML 命 令 组 ， 并 且 这 两 个 命令 的 使 用 方法 非常 类 似 ， 所 以 接 下 来 重点 讲解 一 下 scan 命 令 的 使 用 方法 ， 讲 解 的 过 程 中 使 用 元 数据 
EMETA. (假设 该 表 中 已 经 存在 不 少 Region 的 元 数据 信息 ) 。 


扫描 全 表 最 简单 
输出 如 图 5-8 所 示 。 


& 
B 


方法 是 scan 命 令 后 直接 跟 表 名 ， 当 然 ， 表 名 需要 使 


a 引号 引起 ， 该 命令 会 罗列 表 的 所 有 数据 内 容 (对 每 个 单元 格 只 输出 最 新 时 间 改 版 本 的 数据 ) ， 命 令 的 使 用 方法 和 部 分 结果 


lumn-info:: 


图 5-8 扫描 全 表 命令 的 部 分 输出 结果 


从 上 面 的 输出 结果 中 可 以 看 到 ， 表 .META. 中 该 行 数据 包含 一 个 列 族 info， 以 及 三 个 字段 : regioninfo、server 和 serverstartcode， 下 面 的 命令 使 用 实例 中 也 会 使 用 这 些 信息 。 


N 


使 用 扫描 读 的 时 候 ， 往 往 会 遇 到 这 种 情形 : 只 需要 查看 表 中 某 个 字段 。 假 设 扫描 .META. 表 的 info:regioninfo 字 段 ， 此 时 可 以 使 用 下 面 的 命令 : 
scan '.META.', (COLUMNS => 'info: regioninfo') 
Scan '.META.', COLUMNS => 'info: regioninfo' 


命令 中 第 一 个 参数 是 表 名 .META.， 参 数 之 间 使 用 逗号 分 隔 ，{COLUMNS= >'info:regioninfo'} 表 示 指 定 查询 列 名 是 info:regioninfo， 此 处 的 添加 与 否 不 影响 查询 ,该 命令 执行 后 的 部 分 数据 结果 如 图 5- 
9 所 示 。 从 图 5-9 中 可 以 看 到 ， 共 有 三 行 数据 ， 每 行 数据 只 输出 了 info:regioninfo 列 。 


'info:regioninfo' 


egioninf 


iXumne-inf« 
1197 8275€ 


图 5-9 指定 列 扫描 全 表 命令 的 部 分 输出 结果 


该 全 表 扫描 有 三 个 约束 条 件 : 指定 多 列 、 限 定 返 回 行 数 、 设 置 开始 行 。 指 定 列 名 为 info:regioninfo 和 info:serverstartcode， 限 定 返回 行 数 为 2， 设 置 开始 行为 
message user, 135601920001943985 770761293，1384870525129.456d4de18104776a938bf1fce7df31ac.， 代 码 如 下 : 


scan '.META.', (COLUMNS => ['info: regioninfo', 'info: serverstartcode'], 
LIMIT => 2, STARTROW —»'message user, 135601920001943985 770761293, 
1384870525129.456d4de18104776a938bf1fce7df31lac.'] 


命令 中 所 有 的 约束 条 件 都 放 到 了 花 括 号 中 ， 每 个 条 件 之 间 使 用 逗号 分 隔 。 多 列 的 指定 使 用 数据 结构 : COLUMNS= >['info:regioninfo'，'info:serverstartcode']。 限 定 返 回 行 数 使 用 LIMIT 关 键 字 ， 后 


Ej 


的 设置 值 不 需要 使 用 单 引 号 引起 。 设 置 开 始 行使 用 STARTROW 关 键 字 。 命 令 执行 的 部 分 结果 如 图 5-10 所 示 。 


n 
[ 


35601920001 


user, 135601 


170761293, 1384870 


13889910 


5-10 指定 多 列 、 限 定 返回 行 数 、 设 置 开 始 行 的 扫描 全 表 命 令 的 部 分 输出 结果 


该 全 表 扫 描 包 含 两 个 约束 条 件 : 指定 列 和 时 间 戳 时 间 范 围 。 指 定 列 为 info:serverstartcode， 时 间 戳 范 轩 


是 闭 区 间 [1388991098502，1388995586443]， 代 码 如 下 : 


Scan '.META.', (COLUMNS => 'info: serverstartcode', TIMERANGE => [1388991098502, 1388995586443]) 


时 间 戳 范围 的 关键 字 是 TIMERANGE， 使 用 闭 区 间 表 示 包含 范围 的 边界 ， 


网 


5-11 是 上 述 命令 执行 后 的 部 分 输出 结果 。 从 图 5-11 中 可 以 看 到 ， 三 行 数 据 的 时 间 戳 字段 的 值 都 落 在 区 间 


[1388991098502，1388995586443] 上 。 


hbase(main):018:0» scan '.META.', {COLI 
COLUMN-4( 


column-i 


column-inio: 


:Ol umn=int 


TIMERANGE 


timestamp-138 


serversLtarlcode, LimesLamp-138 


I timestamp-1 


, 1393995586443] } 


388994985800 


图 5-11 AZIR EA 694245 do 4 80 398 2 h ER 
5. 带 有 过 滤 条 件 的 全 表 扫 描 
该 全 表 扫 描 的 约束 条 件 是 使 用 过 滤器 ， 下 面 代 码 中 使 用 了 前 缀 过 滤器 、 列 名 过 滤器 和 时 间 戳 过滤 器， 并 且 使 用 了 组 合 过 滤器 : 
Scan '.META.', (FILTER => " (PrefixFilter ('message user, 135601920002') AND 


(QualifierFilter (=, 'binary: regioninfo') ) ) 
( 1391266708004, 1376047846298) ) "] 


AND (TimestampsFilter 


在 约束 条 件 中 : 过 滤器 使 
QualifierFilter (=, 'binary:regioninfo') 表示 列 名 过 滤器 ， 第 一 个 参数 


关键 字 FILTER; PrefixFilter ('message user, 135601920002") 表示 前 缀 过 滤器 ， 作 
“=” 表 示 比 较 器 ， 即 列 名 等 于 regioninfo， 其 中 的 “binary:” 表 示 使 


于 行 键 上 ,， 行 键 以 message_user，135601920002 为 前 绥 ; 


二 进 制 比较 ， 冒 号 是 分 隔 符 ; 


TimestampsFilter (1391266708004, 1376047846298) 是 时 间 戳 过 滤器 ， 两 个 参数 是 时 间 戳 ， 这 两 个 时 间 戳 并 不 是 区 间 ， 而 是 数据 组 中 的 两 个 元 素 。 执 行 上 面 的 带 有 过 滤器 的 全 表 扫 描 命 令 ， 结 果 输 出 


如 图 5-12 所 示 。 


scan 


AND 


',META.', (FILTER 
(TimestampsFil ( 
TOL 

:ol 


13912667080043[11376047846298, 


52.5 ”工具 命令 Tools 


图 5-12 ” 带 有 过 滤 条 件 的 扫描 全 表 命 令 的 输出 结果 


HBase Shell 工 具 提 供 了 一 些 工 . 


命令 ， 组 名 称 为 Tools， 这 些 命令 多 


面 。 每 种 命令 的 使 用 方法 有 多 种 ， 适 
$ $4 
assign 


balance switch 


触发 集群 负载 均衡 器。 
ÍT MJR [E] true, 很 可 能 将 所 有 Region 
VE R JE 


balancer ee ds 
重新 分 配 


Region 在 RIT 状态 ， 


close region 关闭 某 个 Region 


合并 表 或 Region 


compact 


flush 


Flush 表 或 Region 


5-12 中 可 以 看 出 ， 整 个 .META. 表 符合 条 件 的 记录 只 有 两 行 ， 这 两 行 记录 的 行 键 都 是 以 message_user，135601920002 为 前 缀 ， 都 包含 列 regioninfo， 时 间 戳 也 符合 过 滤器 中 定义 的 


于 HBase 集 群 管理 和 调 优 。 这 些 命令 涵盖 了 合并 、 分 裂 、 负 载 均衡 、 日 志 


表 5-3 Tools 命 令 列表 


balance switch true 


balance switch false 


如 果 成 功 运 


balancer 


false, Wi HH 5t Jt 


compact 't1' 

compact 'r1', 'c1' 
compact 't1', 'c1' 

flush TABLENAME' 
flush 'REGIONNAME' 


可 滚 、Region 分 配 和 移动 以 及 ZooKeeper 信 息 查 看 等 方 


于 不 同 的 场景 。 例 如 合并 命令 compact， 可 以 合并 一 张 表 、 一 个 Region 的 某 个 列 族 ， 或 一 张 表 的 某 个 列 族 。 命 令 的 详细 解释 和 使 用 实例 如 表 5-3 所 示 。 


命令 使 用 实例 


close region REGIONNAME' 
close region REGIONNAME', SERVER NAME' 


hlog roll 


majo 


HLog 日 志 回 滚 ， 
的 AE 


参数 是 RegionServer 


大 合并 表 或 Region 


r compact 


移动 Region。 如 果 没 有 目标 Region- 


move med M 
Server， 则 随机 选择 一 个 节点 
split 分 列表 或 Region 
unassign 站 除 指定 革 个 Region 
命 令 
打印 输出 ZooKeeper 的 信息 ， 包 括 
zk dump HBase FI, RegionServer 状态 ， 以 


及 ZooKeeper 节点 的 状态 统计 


52.66 ”复制 命令 


复制 命令 
令 的 介绍 和 使 用 案例 以 供 读者 参考 ， 具 体 解释 如 表 5-4 所 示 。 
表 5-4 ”复制 命令 列表 
$ $4 
添加 对 等 集群 ， 需 要 指定 对 等 集群 的 ID, 
add peer CURTAS SAA ee 
EBLA . OAN ZooKeeper 的 根 路 径 
disabl 停止 到 特定 集群 的 复制 流 ， 但 仍然 保持 对 
lsSaDie peer Sa sp pH pee PN L ^c e E ht 
Hd 新 改动 的 跟踪 。 参 数 是 对 等 集群 的 ID 
lil pee 启 用 到 对 集 FE 的 复制 从 上 次 关闭 的 位 
I r Ld Ax Hz s. M8 I Ae s PE ht 
ni 置 继续 复制 。 参 数 是 对 等 集群 的 ID 
list_peers 罗列 所 有 正在 复制 的 对 等 集群 
并 且 删除 其 对 应 的 元 数 
remove peer 


start replication 


stop replication 


.对 等 集群 的 ID 
只 用 在 负载 达到 临界 的 

情况 下 
关闭 所 有 复制 流 ， 


情况 下 


只 用 在 负载 达到 临界 的 


安全 命令 


hlog roll 'REGIONSERVERNAME' 


major compact 't1' 

major compact T1', 'c1' 

major compact 't1', 'c1' 

move ENCODED REGIONNAME' 

move ENCODED REGIONNAME', SERVER NAME' 
split tableName' 

split regionName' # format: 'tableName,startK ey.id' 
split 'tableName', 'splitKey' 

split regionName!, 'splitKey' 

unassign REGIONNAME' 

unassign 'REGIONNAME,, true 


一 、 

Mb 
ax 
— 


命令 使 用 实例 


zk dump 


于 HBase 高 级 特性 一 一 复制 的 管理 ， 可 以 添加 、 删 除 、 启 动 和 停止 复制 功能 相关 操作 ， 但 是 因为 HBase 的 复制 特性 在 0.94.* 版 本 中 并 不 成 熟 ， 所 以 这 里 不 展开 讲解 命令 的 细节 ， 仅 给 出 每 个 命 


命令 使 用 实例 
add peer 'l', "serverl.cie.com:2181:/hbase" 
add peer '2', "zk1l.zk2.zk3:2182:/hbase-prod" 
disable peer '1' 
enable peer '1' 
list peers 
remove peer 'l' 


start replication 


stop replication 


安全 命令 属于 DCL (Data Contorl Language， 数 据 控制 语言 ) 的 范畴 ，HBase shell 提供 三 种 安全 命令 : grant、revoke 和 user_permission。 这 三 种 命令 并 不 是 直接 执行 如 表 5-5 所 示 的 使 用 实例 就 可 


grant 


两 个 前 提 条 件 : 使 用 附带 security 的 HBase 版 本 和 配置 完成 Kerberos 安 全 认证 。 


表 5-5 安全 命令 列表 


赋 给 用 户 特 定 的 权限 ， 权 限 集合 是 RWXCA : 
EXEC('X'), 


READ('R'), WRITE('W'), 
CREATE('C?) fll ADMIN('A") 


命令 使 用 实例 


grant 'bobsmith', 'RWXCA' 
grant 'bobsmith', 'RW', 't1', 'f1", 'coll' 


命令 使 用 实例 
revoke 'bobsmith' 
revoke 'bobsmith', 't1', 'f1', 'coll' 


revoke 撤销 用 户 的 特定 权限 


显示 某 用 户 的 所 有 权限 ， 如 果 加 上 参数 user permission 
表 名 ， 则 表示 该 用 户 在 该 表 上 的 所 有 权限 user permission 'tablel' 


user permission 


5.3 ”使 用 Thrift 客 户 端 访问 HBase 


Thrift 项 目 在 2007 年 由 Facebook 提 交 给 Apache 基 金 会 ， 可 以 支持 多 种 程序 语言 ， 例 如 : C++、C#、Cocoa、Erlang、Haskell、Java、Ocami、Perl、PHP、Python、Ruby 和 Smalltalk。 在 多 种 不 
同 的 语言 之 间 通 信 ，Thrift 可 以 作为 二 进 制 的 高 性 能 的 通信 中 间 件 ， 支 持 数据 序列 化 和 多 种 类 型 的 RPC 服 务 。 


Thrift 适 用 于 程序 对 程序 静态 的 数据 交换 ， 需 要 先 确定 好 它 的 数据 结构 ， 是 完全 静态 化 的 ， 当 数据 结构 发 生变 化 时 ， 必 须 重 新 编辑 IDL 文 件 ， 代 码 生 成 ， 再 编译 载 入 的 流程 ， 跟 其 他 IDL 工 具 相 比较 ， 这 
可 以 视 为 Thrift 的 弱项 。Thrift 适 用 于 搭建 大 型 数据 交换 及 存储 的 通用 工具 ， 而 大 型 系统 中 的 内 部 数据 传输 相对 于 JSON 和 XML 无 论 在 性 能 、 传 输 大 小 上 都 有 明显 的 优势 。 


Thrift 是 一 个 服务 端 和 客户 端的 架构 体系 ， 具 有 自己 内 部 定义 的 传输 协议 规范 (TProtocol) 和 传输 数据 标准 (TIransports) ， 通 过 IDL 脚 本 对 传输 数据 的 数据 结构 和 传输 数据 的 业务 逻辑 ， 并 根据 不 同 
的 运行 环境 快速 构建 相应 的 代码 ， 还 要 通过 自己 内 部 的 序列 化 机 制 对 传输 的 数据 进行 简化 和 压缩 ， 以 提高 高 并 发 并 降低 大 型 系统 中 数据 交互 的 成 本 。 


HBase 也 提供 了 Thrift 客 户 端的 访问 方式 ， 以 兼容 不 同 编程 语言 的 访问 方式 。HBase 的 Thrift 客 户 端 共有 两 个 版 本 : Thrift 和 Thrift2， 接 下 来 的 内 容 将 介绍 两 个 版 本 的 区 别 ， 重 点 讲解 如 何 安装 与 部 署 
Thrift2 以 及 列举 一 个 Python 的 使 用 案例 。 


5.3.1 Thrift 与 Thrift2 区 别 


HBase 的 两 个 版 本 的 Thirft 之 间 并 不 兼容 ， 随 意 性 比较 强 (可 能 是 开源 系统 的 共性 ) ， 根 据 官方 文档 的 介绍 ，Thrift2 是 Thrift 的 升级 版 本 ，Thrift 接 口 将 逐步 被 淘汰 ， 本 节 将 简单 介绍 Thrift 与 Thrift2 两 个 
版 本 的 异同 。 


1. 两 个 版 本 的 相同 点 


两 个 Thrift 版 本 相同 的 地 方 如 下 : 
: 底层 相同 。 都 基于 Apache Thrift， 只 是 字典 文件 不 同 。 
- 监听 默认 端口 相同 。 
“ 同时 存在 于 HBase 包 中 ， 对 HBase 0.94.0 版 本 而 言 。 
“ 可 以 在 同一 个 节点 上 同时 使 用 。 
“ 性 能 差别 不 大 。 几 乎 看 不 到 多 少 平均 性 能 上 的 差别 。 
2. 两 个 版 本 的 不 同 点 
两 个 Thrift 版 本 的 不 同 点 如 下 : 
“ 两 者 不 兼容 。 使 用 Thrift 编 写 的 客户 端 不 能 访问 Thrift2 服 务 器 ; 反之 ， 使 用 Thrift2 编 写 的 客户 端 无 法 访问 Thrift 服 务 器 。 
“ API 不 同 。 两 者 的 数据 结构 、 异 常 信 息 、 实 现 方法 差别 非常 大 。 相 对 而 言 ，Thrift2 版 本 的 API 更 加 简洁 、 灵 活 ， 功 能 更 加 强大 。 
.Thrift2 涵 盖 Thtift 版 本 的 所 有 实现 功能 ， 但 某 些 细节 操作 上 Thrift2 可 以 支持 ， 而 Thrift 并 不 支持 ， 例 如 ，Scan 中 对 时 间 蕉 范围 的 设置 。 
基于 上 面 介绍 的 两 个 版 本 的 异同 ， 接 下 来 将 选择 更 加 灵活 、 强 大 的 Thrift2 版 本 进行 讲解 。 
5.3.2 ”安装 与 部 署 Thrift2 
安装 与 部 署 Thrift2 包 含 两 个 大 的 步骤 : 编译 安装 Apache Thrift 客 户 端 和 启动 HBase Thrift2 服 务 端 。 


1. 编 译 安装 Apache Thrift 客 户 端 


下 面 来 讲解 如 何 编译 安装 Apache Thrift 客 户 端 。 


(1) 下 载 Apache Thrift 源 码 


从 Apache 官 网 下 载 源 代码 并 解压 ， 这 里 使 用 Thrift 0.8.0 版 本 (基于 HBase 0.94.*) ， 命 令 如 下 : 


mkdir -p /opt/modules 

cd /opt/modules 
wgethttp://archive.apache.org/dist/thrift/0.8.0/thrift-0.8.0.tar.gz 
tar -zxvf thrift-0.8.0.tar.gz 


(2) 安装 Apache Thrift 依 赖 包 


下 面 的 命令 是 安装 Apache Thrift 所 需要 的 依赖 库 ， 主 要 是 C++、Python、PHP 开 发 库 ， 该 命令 是 针对 CentOS 5/RHEL 5 Linux 操 作 系统 。 


yum install automake libtool flex bison pkgconfig gcc-c++ boost-devel libevent-devel 
zlib-devel python-devel ruby-devel 


当然 ， 不 同 的 操作 系统 命令 有 所 不 同 ， 如 果 是 Ubuntu Linux 则 使 用 下 面 的 命令 : 


apt-get install libboost-dev libboost-test-dev libboost-program-options-dev 
libevent-dev automake libtool flex bison pkg-config g++ libssl-dev 
apt-get -t lenny-backports install automake libboost-test-dev 


(3) 配置 Apache Thrift 


Apache Thrift 的 配置 过 程 非常 简单 ， 只 需要 执行 configure 命 令 即 可 完成 默认 参数 的 配置 过 程 ， 命 令 如 下 : 


cd thrift-0.8.0 
./configure 


如 果 看 到 类 似 下 面 的 代码 ， 表 示 配 置 成 功 : 


checking for a BSD-compatible installhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... /usr/bin/install -c 
checking whether build environment is sanehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/O0EBPS/Text/... yes 

checking for a thread-safe mkdir -phttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... /bin/mkdir -p 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
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Building code generators http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/0EBPS/Text/ . .http: / /www.hzcourse.com/resource/readBook?pat 
Building C++ Library http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/. http: / /www.hzcourse.com/resource/readBook?path-/c 
Building C (GLib) Library http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/ . .http: / /www.hzcourse.com/resource/readBook?| 
Building Java Library http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/0EBPS/Text/. http://www .hzcourse.com/resource/readBook?path-/ 
Building C# Library http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/. . http: / /www.hzcourse.com/resource/readBook?path-/or 
Building Python Library http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/. http://www .hzcourse.com/resource/readBook?patk 
Building Ruby Library http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/ 
Building Haskell Library http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/ . .http: / /www.hzcourse.com/resource/readBook?pat 
Building Perl Library http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/. http://www .hzcourse.com/resource/readBook?path-/ 
Building PHP Library http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/ . .http: / /www.hzcourse.com/resource/readBook?path-/c 
Building Erlang Library http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/0EBPS/Text/..http: / /www.hzcourse.com/resource/readBook?patk 
Building Go Library http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/. .http: / /www.hzcourse.com/resource/readBook?path-/or 
Using Python http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/. .http: //www.hzcourse.com/resource/readBook?path-/openresot 
Using php-config http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/ . . http: / /www.hzcourse.com/resource/readBook?path-/openr 
If something is missing that you think should be present, 

please skim the output of configure to find the missing 

component. Details are present in config.log. 


(4) 编译 Apache Thrift 


使 用 自动 化 建构 工具 make 编 译 Apache Thrift 源 代码 ， 生 成 结果 代码 ， 命 令 如 下 : 


make 


如 果 看 到 类 似 下 面 的 代码 ， 并 且 编 译 过 程 中 没有 抛 出 ERROR 异 常 信息 ， 表 示 编 译 成 功 : 


make all-recursive 

make[1]: Entering directory '/opt/modules/thrift-0.8.0" 

Making all in compiler/cpp 

make[2]: Entering directory '/opt/modules/thrift-0.8.0/compiler/cpp' 

make all-am 

make[3]: Entering directory '/opt/modules/thrift-0.8.0/compiler/cpp' 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 


make[3]: Leaving directory '/opt/modules/thrift-0.8.0/test' 
make[2]: Leaving directory '/opt/modules/thrift-0.8.0/test' 
make[2]: Entering directory '/opt/modules/thrift-0.8.0"' 
make[2]: Nothing to be done for 'all-am'. 

make[2]: Leaving directory '/opt/modules/thrift-0.8.0' 
make[1]: Leaving directory '/opt/modules/thrift-0.8.0' 


(5) 安装 并 验证 Apache Thrift 客 户 端 


编译 完 源 代 码 之 后 ， 需 要 将 源 代码 安装 到 系统 路 径 ， 安 装 命令 如 下 : 


make install 


使 用 In 命 令 创建 软 连 接 ， 将 thrift 命 令 连接 到 /usr/bin 目 录 下 ， 并 且 执 行 版 本 打印 命令 验证 Thrift 是 否 安 装 成 功 ， 相 关 命令 如 下 : 


1n -s /usr/local/bin/thrift /usr/bin/thrift 
thrift -version 


如 果 看 到 如 下 输出 信息 ， 表 示 Apache Thrift 客 户 端 已 经 安装 成 功 : 


Thrift version 0.8.0 


2. 启 动 HBase Thrift2 服 务 端 


上 面 讲 到 的 内 容 都 是 编译 、 安 装 Apache Thrift 客 户 端 ， 由 于 Thrift 是 客户 端 访问 服务 端的 模式 ， 所 以 接 下 来 ， 需 要 启动 HBase 的 Thrift2 服 务 端 。HBase 自 身 附带 了 Thrift2 服 务 端的 相关 脚本 和 类 库 ， 可 
以 直接 通过 Shell 命 令 启动 Thrift2 服 务 端 。 而 且 启 动 服务 端的 命令 很 简单 ， 进 入 HBase 安 装 主 目录 ， 启 动 命令 如 下 : 


bin/hbase-daemon.sh start thrift2 


停止 命令 和 启动 命令 对 应 ， 只 是 关键 字 不 同 ， 停 止 命令 如 下 : 


bin/hbase-daemon.sh stop thrift2 


以 上 两 个 命令 都 是 使 用 后 台 守护 进程 的 方式 启动 ， 默 认 情况 下 日 志文 件 在 HBase 安 装 主 目录 的 logs 目 录 下 ， 如 果 使 用 hbase 用 户 、hbase 用 户 组 启动 ， 启 动 Thrift2 的 节点 主机 名 是 test1， 这 个 日 志文 件 
的 名 称 是 hbase-hbase-thrift2-test1.log， 查 看 该 日 志文 件 会 看 到 如 下 的 输出 信息 ， 表 示 Thrift2 服 务 端 已 经 在 该 节点 成 功 启动 ， 使 用 默认 端口 9090。 该 日 志 对 于 用 户 排查 Thrift2 的 异常 问题 非常 有 帮助 。 


Thu Feb 13 17: 52: 13 CST 2014 Starting thrift2 on testl 


core file size (blocks, -c) 0 

data seg size (kbytes, -d) unlimited 
scheduling priority (-e) 0 

file size (blocks, -f) unlimited 
pending signals (-i) 268288 


max locked memory (kbytes, -1) 32 


max memory size (kbytes, -m) unlimited 


open files (-n) 65535 
pipe size (512 bytes, -p) 8 

POSIX message queues (bytes, -q) 819200 
real-time priority (2r) 0 

stack size (kbytes, -s) 10240 

cpu time (seconds, -t) unlimited 
max user processes (-u) unlimited 
virtual memory (kbytes, -v) unlimited 
file locks (-x) unlimited 


2014-02-13 17: 52: 15, 862 INFO org.apache.hadoop.hbase.thrift.ThriftMetrics: 
Initializing RPC Metrics with port-9090 

2014-02-13 17: 52: 16, 254 INFO org.mortbay.log: Logging to org.slf4j.impl. 
Log4jLoggerAdapter (org.mortbay.log) via org.mortbay.log.Slf4jLog 

2014-02-13 17: 52: 16, 375 INFO org.apache.hadoop.http.HttpServer: Added global 
filtersafety (class-org.apache.hadoop.http.HttpServer$QuotingInputFilter) 

2014-02-13 17: 52: 16, 402 INFO org.apache.hadoop.http.HttpServer: Port returned 
by webServer.getConnectors () [0].getLocalPort () before open () is -1. Opening 
the listener on 9095 

2014-02-13 17: 52: 16, 413 INFO org.apache.hadoop.http.HttpServer: listener. 
getLocalPort () returned 9095 webServer.getConnectors () [0].getLocalPort () 
returned 9095 

2014-02-13 17: 52: 16, 415 INFO org.apache.hadoop.http.HttpServer: Jetty bound to port 9095 

2014-02-13 17: 52: 16, 415 INFO org.mortbay.log: jetty-6.1.26 

2014-02-13 17: 52: 17, 681 INFO org.mortbay.log: Started SelectChannelConnector 
60.0.0.0: 9095 

2014-02-13 17: 52: 17, 684 INFO org.apache.hadoop.hbase.thrift2.ThriftServer: 
starting HBase ThreadPool Thrift server on 0.0.0.0/0.0.0.0: 9090 


3. 单 节点 启动 多 个 Thrift2 服 务 端 


虽然 启动 Thrift2 服 务 端 的 时 候 可 以 指定 启动 的 端口 (默认 是 9090) ， 但 是 Thrift2 启 动 时 ， 还 需要 另外 一 个 端口 作为 信息 交互 端口 ， 默 认 是 9095。 基 于 Thrift2 的 这 种 架构 和 实现 方式 ， 如 果 在 同一 个 节 
点 上 启动 多 个 Thrift2 服 务 端 ， 在 不 更 改 配置 的 前 提 下 ， 是 无 法 实现 的 。 接 下 来 ， 将 介绍 如 何 配置 使 得 单 节 点 可 以 启动 多 个 Thrift2 服 务 端 。 


fit 


首先 ， 使 用 上 面 讲 到 的 启动 命令 ， 启 动 第 一 个 Thrift2 服 务 端 ， 该 服务 端 使 用 默认 端口 ， 即 9090。 


其 次 ， 更 改 PID 文 件 。Thrift2 启 动 时 ， 会 在 系统 临时 目录 (/tmp) 下 生成 PID 文 件 ， 记 录 Thrift2 进 程 的 ID。 但 是 该 文件 如 果 存 在 ， 则 无 法 启动 Thrift2， 所 以 如 果 要 启动 第 二 个 Thrift2 服 务 端 ， 需 要 将 该 
文件 重 命名 ， 命 令 如 下 : 


mv /tmp/hbase-hadoop-thrift2.pid /tmp/hbase-hadoop-thrift2.pid.9090 


再 次 ， 复 制 HBase 安 装 目录 ， 命 令 如 下 : 


cp -r /opt/modules/hbase/hbase-0.94.0 /opt/modules/hbase/hbase-0.94.0-thrift2-9091 


然后 ， 修 改 配置 文件 。 向 hbase-0.94.0-thrift2-9091/conf/hbase-site.xml 中 添加 Thrift2 相 关 的 信息 端口 配置 ， 添 加 如 下 代码 : 


«property» 
«name»hbase.thrift.info.port«/name» 
«value»9096«/value» 

«/property» 


最 后 ， 启 动 第 二 个 Thrift2。 使 用 如 下 命令 ， 命 令 中 -p 指 定 端 口号 为 9091 : 


bin/hbase-daemon.sh start thrift2 -p 9091 


经 过 上 面 的 操作 步骤 ， 第 二 个 Thrift2 服 务 端 已 经 启动 ， 重 复 上 面 的 步骤 可 以 启动 多 个 ， 但 要 注意 两 个 相关 的 端口 号 不 能 重复 〈( 即 不 同 Thrift2 服 务 端的 两 个 端口 各 不 相同 ) 。 


5.3.3 ”Python 使 用 案例 


前 面 已 经 介绍 了 Apache Thrift 的 客户 端 安装 、 部 署 ， 以 及 HBase Thrift2 的 启动 ， 接 下 来 ， 列 举 一 个 Python 的 具体 使 用 案例 ， 通 过 该 案例 讲解 如 何 使 用 Apache Thrift2 客 户 端 访 问 HBase Thrift2 服 务 


Thrift 客 户 端 访问 服务 端 ， 不 仅 需要 客户 端的 安装 和 服务 端的 启动 ， 还 需要 Thrift2 的 字典 文件 ， 还 好 HBase 提 供 了 Thrift2 依 赖 的 字典 文件 ， 不 需要 用 户 编程 实现 ， 只 需要 执行 命令 根据 字典 文件 生成 依 
赖 库 即 可 。 下 面 的 流程 详细 讲解 了 如 何 根据 字典 文件 生成 依赖 库 、 如 何 使 用 依赖 库 访问 Thrift2 服 务 端 。 


1. 生 成 依赖 库 


首先 ， 根 据 字典 文件 生成 依赖 库 。 字 典 文件 的 名 字 是 hbase.thrift， 该 文件 定义 了 HBase 访 问 Thrift2 服 务 端的 数据 结构 、 异 常 信息 和 主要 方法 ， 对 每 种 类 型 的 字典 结构 都 有 明确 的 注释 ， 读 者 可 以 根据 每 
部 分 字典 结构 的 名 称 和 注释 理解 每 部 分 的 含义 。 通 过 字典 文件 生成 Python 依赖 库 的 代码 如 下 : 


cp -r S(HBASE HOME] /src/main/resources/org/apache/hadoop/hbase/thrift2 -/thrift2 src 
cd -/thrift2 src/ 
thrift -gen py hbase.thrift 


执行 完 上 述 代码 ， 会 在 当前 目录 下 生成 Python 依赖 库 。 命 令 中 的 -gen 参 数 表示 根据 字典 文件 生成 依赖 库 的 动作 ，py 参 数 可 指定 生成 Python 语言 的 依赖 库 。 通 过 下 面 的 命令 查看 生成 的 依赖 文件 : 


ls -1 -/thrift2 src/gen-py/hbase/ 


然后 会 看 到 如 下 的 文件 列表 : 
total 176 
-rw-r--r-- 1 root root 221 Feb 17 11: 22 constants.py 


1 
-rw-r--r-- 1 root root 51 Feb 17 11: 22 init .py 
-rw-r--r-- 1 root root 100416 Feb 17 11: 22 THBaseService.py 
-rwxr-xr-x 1 root root 4875 Feb 17 11: 22 THBaseService-remote 
-rw-r--r-- 1 root root 49964 Feb 17 11: 22 ttypes.py 


文件 列表 中 ，constants.py 是 引入 的 数据 类 型 常量 ，_init_.py 定 义 文 件 名 数据 组 ，THBaseService.py 文 件 包含 主要 的 实现 方法 ，THBaseService-remote 是 远程 交互 的 客户 端 ，ttypes.py 文 件 定义 了 
数据 类 型 ,例如 TDeleteType、TTimeRange、TColumn、TColumnValue 等 。 


其 次 ,复制 Apache Thrift 中 的 Python 依赖 文件 。 将 客户 端 依赖 的 Thrift2 相 关 Python 文 件 移动 到 相关 的 位 置 ， 命 令 如 下 : 


mkdir -p /opt/modules/hbase-thrift2-lib/thrift 
cp -r /opt/modules/thrift-0.8.0/1ib/py/src/* /opt/modules/hbase-thrift2-lib/thrift/ 
cp -r -/thrift2 src/gen-py/* /opt/modules/hbase-thrift2-lib/ 


然后 ， 查 看 所 有 依赖 文件 。 通 过 下 面 的 命令 查看 Thrift2 客 户 端 依赖 的 Python 文件 : 


ls -1 /opt/modules/hbase-thrift2-lib/ 


上 面 命令 执行 后 会 看 到 下 面 的 文件 列表 : 


total 11 

drwxr-xr-x 2 root root 4096 Feb 17 11: 23 hbase 
-rw-r--r-- 1 root root 0 Feb 17 11: 22 init .py 
drwxr-xr-x 5 root root 4096 Feb 17 11: 23 thrift 


2. 访 问 代 码 示例 


首先 ， 复 制 Python 访问 示例 。 直 接 使 用 HBase 中 自 带 的 示例 代码 ， 将 DemoClient.py 复 制 到 之 前 创建 的 hbase-thrift2-lib 目 录 中 ， 所 需 命令 如 下 : 


cp S(HBASE HOME) /src/examples/thrift2/DemoClient.py /opt/modules/hbase-thrift2-lib/ 


其 次 ， 修 改 Python 示例 文件 。 修 改 文件 中 的 host 和 port 变 量 对 应 的 值 ， 例 如 修改 成 下 面 代码 所 表示 的 值 : 


"192.168.1.91" 
9090 


host 
port 


再 次 ， 创 建 example 表 。 使 用 HBase Shell 客 户 端 创建 example 表 ， 该 表 包含 一 个 列 族 family1。 


create 'example', 'familyl' 


然后 ， 执 行 示例 。 使 用 python 命 令 执行 示例 ， 所 需 命令 如 下 : 


python DemoClient.py 


执行 完 上 面 的 代码 会 得 到 如 下 的 输出 信息 ， 从 输出 信息 中 可 以 看 到 ， 该 示例 执行 成 功 ， 能 够 通过 Python 客户 端 成 功 写 入 和 读 出 数据 。 


Thrift2 Demo 

This demo assumes you have a table called "example" with a column family called "familyl" 

Putting: TPut (attributes-None, timestamp-None, writeToWal-True, columnValues- 
[TColumnValue (value-'valuel', qualifier-'qualifierl', family-'familyl'. 
timestamp-None) ], row-'rowl') 

Getting: TGet (filterString-None, timestamp-None, maxVersions-None, timeRange- 
None, attributes-None, columns-None, row-'rowl') 

Result: TResult (columnValues-[TColumnValue (value-'valuel', qualifier-'qualifierl', 
family-'familyl', timestamp-1392607687989L) ], rows'rowl') 


通过 HBase Shell 交 互 模式 ， 使 用 全 表 扫 描 Scan 命 令 ， 能 看 到 example 的 全 部 数据 ， 如 


5-13 所 示 。 


[ 


COLUMNtCELL 
column-familyl:gualifieri, 


timestamp-13926276879389, value-valuel 


0.3030 seconds 


图 5-13 ”全 表 扫 描 example 表 的 输出 结果 


54 ”通过 REST 客 户 端 访问 HBase 


目前 在 三 种 主流 的 Web 服 务实 现 方案 中 ， 因 为 REsT 模 式 的 Web 服 务 与 复杂 的 SOAP 和 XML-RPC 对 比 来 讲 明显 更 加 简洁 ， 越 来 越 多 的 Web 服 务 开始 采用 REST 风 格 设计 和 实现 。HBase 也 提供 了 REST 服 务 


的 访问 方式 ， 这 种 服务 架构 首先 需要 启动 服务 端的 一 个 REST 网 关 ， 然 后 通过 客户 端 访问 该 网 关 返 回访 问 结果 。 


HBase 的 REST 服 务 支持 多 种 相应 格式 ， 有 Content-type 参 数 设 定 ， 支 持 的 格式 包括 TEXT、XML、JSON 和 Protobufs 等 格式 ， 分 别 对 应 的 类 型 名 称 是 text/plain、text/xml、application/json 和 


application/x-protobuf, 


541 ”启动 服务 


REST 服 务 的 启动 和 Thrift2 相 同 ， 即 使 用 Shell 命 令 行 启动 。 使 用 后 台 服 务 进程 启动 ， 进 入 HBase 安 装 主 目录 ， 启 动 命令 如 下 : 


bin/hbase-daemon.sh start rest 


使 用 help 命 令 查 看 REST 命 令 的 使 用 方法 ， 可 以 看 到 如 下 的 命令 帮助 信息 : 


usage: bin/hbase rest start [--infoport <arg>] [-p <arg>] [-ro] 
--infoport «arg» Port for web UI 
-p» --port «arg» Port to bind to [default: 8080] 
-ro, --readonly Respond only to GET HTTP method requests [default: false] 


To run the REST server as a daemon, execute bin/hbase-daemon.sh start|stop 
rest [--infoport «port»] [-p <port>] [-ro] 


从 上 面 的 信息 中 可 以 看 到 ， 可 以 指定 REST 服 务 的 端口 号 、 信 息 端口 号 ， 或 者 是 否 为 只 读 的 状态 。 本 节 介 绍 的 示例 中 使 用 默认 端口 号 ， 即 8080。 


启动 成 功 后 ， 使 用 curl 命 令 验证 是 否 启动 成 功 ， 第 一 个 参数 -H 可 指定 URL 的 Header 的 格式 ， 这 里 指定 为 JJON 格 式 ， 第 二 个 参数 是 访问 的 URL， 含 义 是 HBase 集 群 的 版 本 信息 。 下 面 的 JSON 是 访问 返回 


的 结果 。 返 回 结果 中 包含 Web 服 务 器 、REST 版 本 、 操 作 系统 版 本 、JVM 版 本 等 简短 信息 。 


curl -H "Accept: application/json" http://localhost: 8080/version 
["Server": "jetty/6.1.26", "REST": "0.0.2", "OS": "Linux 2.6.18-274.e15 amd64", 


"Jersey": "1.4", "JVM": "Sun Microsystems Inc. 1.6.0 37-20.12-b01") 


还 可 以 通过 curl 命 令 罗列 HBase 中 所 有 表 名 ， 访 问 命令 和 返回 JSON 结 果 如 下 : 


curl -H "Accept: application/json" http://localhost: 8080 


如 果 想 返回 的 JSON 结 果 可 读 性 更 强 ， 可 以 使 用 Python 的 json.tool 工 具 格式 化 。 这 里 需要 注意 的 是 Python 2.4 版 本 默认 是 没有 json 模 块 的， 需要 使 用 Python 2.6 以 上 版 本 ， 下 面 的 命令 中 使 用 的 是 2.7 版 
本 。 读 者 需要 根据 实际 的 服务 器 环境 选择 Python 版 本 。 


curl -H "Accept: application/json" http://localhost: 8080/version 2»/dev/null 
Ipython2.7 -mjson.tool 
{ 


"JVM": "Oracle Corporation 1.7.0 21-23.21-b01", 
"Jersey"; "1.8", 

"OS 
"REST": , 
"Server": "jetty/6.1.26" 


nux 2.6.18-274.e15 amdé4", 
0.0.2" 


54.2 ”使 用 REST 访 问 example 表 


REST 访 问 方式 有 多 种 ， 这 里 介绍 最 常用 的 两 种 : GET 和 PUT， 下 面 将 详细 介绍 两 种 方法 如 何 使 用 。 


首先 ，GET 请 求 方法 的 使 用 比较 简单 ， 不 需要 指定 特定 的 关键 字 ， 下 面 代码 中 curl 开 头 的 命令 是 GET 请 求 的 执行 命令 ， 下 面 的 JSON 部 分 是 返回 结果 。 


curl -H "Accept: application/json" http://localhost: 8080/example/rowl 2>/dev/null 
Ipython2.7 -mjson.tool 


"Row" [ 
"Celli"; I 
{ 
"$":  "dmFsdWUx", 
"column": "ZmFtaWwx5MTpxdWxpZmllcjE=", 


"timestamp": 1392622779592 


"key": "cm93MQ==" 


如 上 面 GET 请 求 代码 所 示 ， 命 令 中 第 二 个 参数 是 访问 URL， 该 部 分 由 三 个 部 分 组 成 : 主机 名 与 端口 号 、 表 名 、 行 键 。 其 中 ， 表 名 是 example， 行 键 是 row1。 


在 返回 结果 中 ，key 字 段 表 示 行 键 ， 经 过 base64 编 码 ; 在 Cell 字 段 中 ，$ 表 示 单 元 格 的 值 ，column 表 示 列 名 ，timestamp 表 示 时 间 戳 ， 值 和 列 名 字段 都 使 用 base64 编 码 。 


因为 行 键 、 列 名 和 值 均 使 用 base64 编 码 ， 可 以 使 用 base64 工 具 解 码 以 获取 实际 值 ， 示 例 命令 和 结果 输出 如 下 : 


echo -n "dmFsdWUx" |base64 --decode 
rowl 


其 次 ，PUT 请 求 需要 借助 特定 的 关键 字 -XPUT， 其 请 求 命令 如 下 : 


curl -XPUT -H "Content-Type: application/octet-stream" http://localhost: 8080/ 
example/row2/familyl: qulifier2 -d "value2" 


命令 中 -H 指 定数 据 写 入 的 格式 使 用 Content-Type:application/octet-stream， 表 示 任 意 的 二 进 制 数据 传输 。 之 后 是 URL 参 数 ， 该 参数 需要 指定 表 名 、 行 键 、 列 族 和 列 名 ， 该 示例 命令 中 表 名 是 
example， 行 键 是 row2， 列 族 是 family， 列 名 是 qulifier2。-d 参 数 表 示 该 单元 格 的 值 ， 该 处 值 是 value2。 命 令 执 行 完成 后 ， 扫 描 全 表 的 数据 结果 如 图 5-14 所 示 。 


COLUMN-CELL 
column-familyl:qulifierl, timestamp-:392626302284, value-valuel 


column-familyl:qulifier2, timestamp-1392626325863, value-value2 


0300 seconds 


图 5-14 全 表 扫 描 example 表 的 输出 结果 


5.5 ”使 用 MapReduce 批 量 操作 HBase 


前 面 的 章节 已 经 讲 到 ，HBase 和 Hadoop 结 合 得 非常 好 ，HBase 构 建 在 HDFS 基 础 上 ， 可 以 使 用 MapReduece 进 行 分 布 式 计算 ， 这 里 不 再 累 述 HDFS 和 MapReduce 等 Hadoop 基 础 知识 。 下 面 将 着 重 i 
解 如 何 使 用 MapReduce 批 量 操作 HBase 的 实战 经 验 。 


¥ 


HBase 作 为 一 个 非常 棒 的 NoSQL 数 据 库 ， 用 户 更 关心 的 是 其 在 线 操作 部 分 ， 可 以 在 数据 读 取 和 写 入 操作 上 拥有 毫秒 级 的 延 时 。 但 这 并 不 表示 HBase 只 能 支撑 在 线 实时 访问 ， 也 支持 一 些 离线 计算 的 应 


些 离 
场景 。 


了 解 Hadoop 的 读者 都 知道 MapReduce 专 门 用 于 批量 分 布 式 计算 的 框架 ， 其 优势 在 于 并 行 分 块 计算 以 获得 最 大 吞吐 量 ， 特 点 是 用 于 离线 场景 下 。 而 HBase 底 层 数据 存储 在 HDFS 目 大 表 按 行 键 切 分 
Region 的 特性 ， 非 常 适合 使 用 MapReduce 进 行 HBase 数 据 的 离线 批 处 理 。 


5.5.1 三 种 访问 模式 


使 用 MapReduce 访 问 HBase 共 有 三 种 访问 模式 : HBase 作 为 输入 源 (Data Source) 、 输 出 源 (Data Sink) 和 共享 源 (Shared Resource) 。 这 三 种 访问 模式 区 别 并 不 大 ， 都 有 各 自 的 应 用 场景 ， 
体 的 异同 分 别 如 下 : 


- HBase 作 为 输入 源 : 输入 源 是 HBase， 输 入 源 可 以 是 RDBMS、HDFS 或 其 他 NoSQL。 多 用 于 统计 现 有 HBase 中 的 相关 数据 ， 将 结果 输出 到 非 HBase 存 储 中 。 


:HBase 作 为 输出 源 : 与 HBase 作 为 输入 源 正 好 相反 。 输 入 是 其 他 非 HBase 存 储 ， 例 如 RDBMS、HDEFS 等 ， 输 出 到 HBase。 常 用 于 数据 迁移 ， 从 传统 存储 迁移 到 HBase。 


' HBase 作 为 共享 源 : 输入 和 输出 源 都 是 HBase。 常 用 于 当 数 据 已 经 存储 在 HBase 中 ， 中 间 结 果 处 理 后 仍 需要 使 用 HBase 作 为 存储 的 处 理 场景 。 


接 下 来 的 内 容 将 详细 介绍 HBase 实 现 的 MapReduce 相 关 的 API， 并 


5.5.2 MapReduce API 


列举 三 种 访问 模式 的 具体 代码 示例 。 


HBase 提 供 了 若干 封装 类 用 于 “无 颖 ”连接 MapReduce， 绝 大 部 分 的 类 在 org.apache.hadoop.hbase.mapreduce 和 org.apache.hadoop.hbase.mapred 两 个 包 中 ， 这 里 只 介绍 Hadoop 1.* 版 本 中 的 
MapReduce 的 新 API 相 关 的 实现 ， 即 org.apache.hadoop.hbase.mapreduce 中 对 应 的 类 。 其 中 ， 主 要 的 实现 类 如 表 5-6 所 示 。 


类 名 


表 5-6 ”DML 命令 列表 


类 作用 解释 


TableInputFormat 将 HBase 中 的 表格 式 数 据 格式 化 为 MapReduce 可 读 的 格式 

TableOutputFormat 将 MapReduce 格式 数据 转化 为 HBase 表格 式 数 据 

MultiTableInputFormat 将 多 个 HBase 中 的 表格 式 数据 格式 化 为 MapReduce 可 读 的 格式 

MultiTableOutputFormat 将 MapReduce D 式 数 据 转化 到 多 个 HBase 表 中 

TableMapper 扩展 自 Mapper 类 ， 所 有 以 HBase 作为 输入 源 的 Mapper 类 需要 继承 该 类 

(5E) 

类 名 类 作用 解释 

TableReducer 扩展 自 Reducer 类 ， 所 有 以 HBase 作为 输出 源 的 Reducer 类 需要 继承 该 类 

TableMapReduceUtil 设置 TableMapper 和 TableReducer 的 工具 类 

CellCounter 计算 表 中 单元 格 数据 量 的 任务 

RowCounter 计算 表 中 行 键 数 量 的 任务 


5.5.3 ”HBase 作 为 输入 源 示例 


HBase 作 为 输入 源 是 比较 常用 的 一 种 使 用 方式 ， 从 HBase 表 中 读 取 数 


居 ， 使 用 MapReduce 计 算 完成 之 后 ， 将 数据 存储 到 其 他 介质 中 。 本 节 介 绍 的 示例 将 数据 存储 到 HDFS 中 ， 整 个 处 理 过 程 一 共 涉 及 两 


个 类 : ExampleMapper 和 Main。ExampleMapper 负 责 整个 计算 逻辑 ，Main 是 整个 处 理 逻 辑 的 入 口 ， 用 于 封装 和 启动 Hadoop 任 务 。 


本 节 示 例 的 需求 : 前 面 的 内 容 已 经 创建 过 表 example，family1 是 列 族 ，qulifier1 和 qulifier2 是 该 列 族 下 的 两 个 字段 ， 需 要 统计 并 输出 family1:qulifier1 字 段 的 值 为 value1 的 所 有 行 的 行 键 。 


Main 类 中 main () 方法 是 整个 程序 的 入 口 ， 该 方法 中 首先 配置 Scan 类 ， 需 要 全 表 扫 描 example 表 以 计算 所 需要 的 统计 值 ， 其 次 是 配置 HBase 的 连接 信息 ， 然 后 配置 Hadoop 任 务 信息 并 执行 ，Main 类 


的 代码 如 下 : 


public class Main { 
static final Log LOG = LogFactory.getLog (Main.class) ; 
public static final String NAME = "Example Testl"; 


public static final String TEMP INDEX PATH = "/tmp/example"; 


public static String inputTable - "example"; 


public static void main (String[] args) throws Exception ( 


Configuration conf - HBaseConfiguration.create () ; 
Scan scan - new Scan () 

/* batch and caching */ 

scan.setBatch (0) ; 

scan.setCaching (10000) ; 

scan.setMaxVersions () ; 


scan.setTimeRange (System.currentTimeMillis () - 3 * 24 * 3600 * 1000L, 


System.currentTimeMillis () ) ; 
/* configure scan */ 


scan.addColumn (Bytes.toBytes ("familyl") , Bytes.toBytes ("qulifierl") ) ; 


// hbase master 
conf.set ("hbase.master", "192.168.1.11: 60000") ; 
// zookeeper quorum 


conf.set ("hbase.zookeeper.quorum", "192.168.1.11, 192.168.1.12, 192.168.1.12'") ; 


// set hadoop speculative execution to false 


conf.setBoolean ("mapred.map.tasks.speculative.execution", false); 
conf.setBoolean ("mapred.reduce.tasks.speculative.execution", 


Path tempIndexPath = new Path (TEMP INDEX PATH) ; 
FileSystem fs = FileSystem.get (conf) ; 
if (fs.exists (tempIndexPath) ) ( 

fs.delete (tempIndexPath, true); 


$ 

/* JOB */ 

Job job = new Job (conf, NAME) ; 
job.setJarByClass (Main.class) ; 
TableMapReduceUtil.initTableMapperJob (inputTable, 


scan, 


ExampleMapper.class, Text.class, Text.class, job); 


job.setNumReduceTasks (0) ; 
job.setOutputFormatClass ( TextOutputFormat. class) ; 
FileOutputFormat.setOutputPath (job, tempIndexPath) ; 


int success = job.waitForCompletion (true) ? 0: 1 


System.exit (success) ; 


false); 


Reducer， 计 算 结果 的 数据 使 用 TextOutputFormat 类 ， 即 将 最 终结 果 存 放 到 HDFS 上 。 


ExampleMapper 类 实现 了 需求 的 主要 逻辑 ， 因 为 需求 比较 简单 ， 
循环 ，ExampleMapper 类 的 代码 逻辑 如 下 : 


public class ExampleMapper extends TableMapper«Writable, 
private Text k = new Text () ; 


其 中 ，Hadoop 任 务 配 置 中 TableMapReduceUtilinitTableMapperJob() 方法 设置 了 数据 输入 为 表 example， 扫 描 实例 是 scan， 方 法 内 部 设置 输入 格式 类 是 TextlnputFormat。 流 程 中 并 没有 设置 


实现 代码 并 不 复杂 ， 


Writable» ( 


首先 遍历 结果 集合 ， 如 果 符 合 值 等 于 value1 的 条 件 ， 将 该 条 记录 的 行 键 和 一 些 说 明 进 行 输出 ， 然 后 跳出 并 结束 本 


private Text v = new Text () ; 
public static final String FIELD COMMON SEPARATOR = "Nu0001"; 
GOverride i z 
protected void setup (Context context) throws IOException, 
InterruptedException { 
} 
GOverride 
public void map (ImmutableBytesWritable row, Result columns, Context context) 
throws IOException ( 
String value = null; 
String rowkey = new String (row.get (0); 
byte[] columnFamily = null: 
byte[] columnQualifier = null; 
long ts = OL; 
try ( 
for (KeyValue kv : columns.list O ) ( 
value = Bytes.toStringBinary (kv.getValue O ) ; 
columnFamily = kv.getFamily O ; 
columnQualifier = kv.getQualifier () ; 
ts = kv.getTimestamp () ; 
if ("valuel".equals (value) ) { 
k.set (rowkey) ; 
v.set (Bytes.toString (columnFamily) + FIELD COMMON SEPARATOR 
* Bytes.toString (columnQualifier) 
* FIELD COMMON SEPARATOR + value 
+ FIELD COMMON SEPARATOR + ts) ; 
context.write (k; v): ` 
break; 
) 
) 
) catch (Exception e) ( 
e.printStackTrace () ; 
System.err.println ("Error: " + e.getMessage O +", Row: " 
+ Bytes.toString (row.get () ) + ", Value: "+ value): 


5.5.4. “HBase 作 为 输出 源 示例 


HBase 作 为 输出 源 ， 即 从 其 他 存储 介质 中 ， 使 用 MapReduce 计 算 后 将 结果 输出 到 HBase 表 。 本 节 介 绍 的 示例 将 从 HDFS 读 取 数 据 ， 整 个 处 理 过 程 也 包含 两 个 类 : ExampleMapper 和 Main。 
ExampleMapper 负 责 整个 计算 逻辑 ，Main 是 整个 处 理 逻 辑 的 入 口 ， 用 于 封装 和 启动 Hadoop 任 务 。 


本 节 示 例 的 需求 : 将 5.5.3 节 中 的 输出 结果 转移 到 HBase 表 中 。 


Main 类 中 ，main () 方法 是 整个 程序 的 入 口 ， 该 方法 首先 解析 输入 参数 ， 定 义 输入 HDFS 的 路 径 、 表 名 和 列 名 ， 


次 配置 HBase 的 连接 信息 ， 然 后 配置 Hadoop 任 务 信 息 并 执行 ，Main 类 的 代码 如 下 所 


public class Main extends Configured implements Tool { 
static final Log LOG = LogFactory.getLog (Main.class) ; 


GOverride 
public int run (String[] args) throws Exception ( 
if (args.length ! = 3) 


LOG.info ("Usage: 3 parameters needed! Mihadoop jar hbase-buld-import- 
0.1.jar «inputPath»«tableName»«columns?") ; 
System.exit (1) ; 
) 


String input - args[0]: 

String table = args[l]: 

String columns - args[2]: 
HB 


Configuration conf = 
// hbase master 
conf.set ("hbase.master", "192.168.1.11: 60000"); 
// zookeeper quorum 
conf.set ("hbase.zookeeper.quorum", "192.168.1.11, 192.168.1.12, 192.168.1.12") ; 
Job job = new Job (conf, "Import from file " + input + " into table " 
+ table) ; 
job.setJarByClass (Main.class) : 
job.setMapperClass (ExampleMapper.class) ; 
job.setOutputFormatClass (TableOutputFormat.class) ; 
job.getConfiguration () .set (TableOutputFormat.OUTPUT TABLE, table); 
job.setOutputKeyClass (ImmutableBytesWritable.class) : 
job.setOutputValueClass (Writable.class) ; 
job.setNumReduceTasks (0) ; 
FileInputFormat.addInputPath (job, new Path (input) ) ; 
return job.waitForCompletion (true) ? 0: 1 


aseConfiguration.create () ; 


} 
public static void main (String[] args) throws IOException { 
Configuration conf = new Configuration () ; 
String[] otherArgs - new GenericOptionsParser (conf, args) 
.getRemainingArgs () ; 
int res = 1; 
try { 
res = ToolRunner.run (conf, new Main (), otherArgs) ; 
} catch (Exception e) { 
e.printStackTrace () ; 
} 


System.exit (res) ; 


其 中 ， 在 Hadoop 任 务 配置 中 ， 使 用 FilelnputFormat 从 HDFS 读 取 数 据 ， 输 出 需要 配置 4 项 内 容 : 输出 格式 为 TableOutputFormat、 输 出 表 名 、 输 出 数据 的 Key 和 Value 的 类 型 。 


ExampleMapper 类 实现 了 需求 的 主要 逻辑 ， 因 为 需求 比较 简单 ， 实 现代 码 并 不 复杂 ， 首 先 拆 分 输入 的 Value， 构 造 Put 对 象 ， 然 后 将 结果 输出 。 输 出 Key 和 Value 的 类 型 分 别 是 
ImmutableBytesWritable 和 Writable，ExampleMapper 类 的 代码 逻辑 如 下 : 


public class ExampleMapper extends 
Mapper«LongWritable, Text, ImmutableBytesWritable, Writable» ( 
private byte[] family = null; 
private byte[] qualifier = null; 
private byte[] val = null: 
private String rowkey = null; 
private long ts = System.currentTimeMillis () ; 
GOverride 
protected void map (LongWritable key, Text value, Context context) 
throws IOException, InterruptedException { 
try { 
String lineString = value.toString O ; 
String[] arr = lineString.split ("\t", -1) ; 
if (arr.length == 2) { 
rowkey = arr[0]: 
String[] vals = arr[1].split ("Nu0001", -1); 
if (vals.length == 4) { 
family = vals[0].getBytes O) ; 
qualifier = vals[1].getBytes O ; 
val = vals[2].getBytes O ; 
ts = Long.parselong (vals[3]) ; 
Put put = new Put (rowkey.getBytes () , ts); 
put.add (family, qualifier, val); 
context.write ( 
new ImmutableBytesWritable (rowkey.getBytes () ), put); 


} catch (Exception e) ( 
e.printStackTrace () ; 


} 


5.5.5 ”HBase 作 为 共享 源 示 例 


HBase 作 为 共享 源 ， 即 HBase 又 作为 输入 源 ， 同 时 作为 输出 源 。 在 实际 应 用 中 这 种 使 用 方式 也 经 常用 到 ， 如 本 节 的 示例 所 示 ， 将 一 张 表 的 过 


服务 。 


本 节 示 例 的 需求 是 上 面 两 种 访问 模式 的 整合 


在 Main 类 中 ，main () 方法 是 整个 程序 的 入 口 ， 该 
TableMapReduceUtilinitTableReducerJob () 方法 定义 ， 并 使 


方法 中 的 逻辑 和 HBase 作 为 输入 源 的 逻辑 非常 相似 ， 唯 一 不 同 的 是 设置 Hadoop 任 务 中 的 输出 部 分 ， 使 


了 HBase 中 已 经 实 : 


即 从 HBase 中 读 取 数据 ， 计 算 完成 后 ， 又 将 结果 输出 到 HBase 的 另外 一 张 表 中 。 


现 的 IdentityTableReducer 类 作为 Reducer， 将 结果 输出 到 HBase 表 中 ，Main 类 代码 如 下 : 


寸 滤 统计 结果 输出 到 另 一 张 表 中 ， 以 便 提 供 对 外 的 高 性 能 访问 


public class Main ( 


static final Log LOG = LogFactory.getLog (Main.class) ; 
public static final String NAME - "Example Test3"; 


public static String inputTable 


public static String outputTable 


public static void main (String[] args) 


Configuration 


scan.setBatch 


"example"; 


= "example-stat"; 


throws Exception ( 


conf = HBaseConfiguration.create () ; 
Scan scan = new Scan () ; 
/* batch and caching */ 


(0 ; 


scan.setCaching (10000) ; 
scan.setMaxVersions () ; 


Scan.setTimeRange (System.currentTimeMillis () 


System.currentTimeMillis () ) ， 
/* configure scan */ 


Scan.addColumn (Bytes.toBytes ("familyl") , 


// hbase master 
conf.set ("hbase.master", "192.168.1.11: 60000"); 
// zookeeper quorum 


conf.set ("hbase.zookeeper.quorum", 


"192.168.1.11, 


// set hadoop speculative execution to false 


conf.setBoolean ("mapred.map.tasks.speculative.execution", 
conf.setBoolean ("mapred.reduce.tasks.speculative.execution", 


Path tempIndexPath = new Path (TEMP INDEX PATH) ; 


FileSystem fs 


= FileSystem.get (conf) ; 


if (fs.exists (tempIndexPath) ) 
fs.delete (tempIndexPath, t 


} 
/* JOB */ 
Job job = new 


ExampleMapper.class, 


{ 


rue) ; 


Job (conf, NAME) ; 
job.setJarByClass (Main.class) ; 
TableMapReduceUtil.initTableMapperJob (inputTable, scan, 


TableMapReduceUtil.initTableReducerJob (outputTable, 
IdentityTableReducer.class, 
job.waitForCompletion (true) ? 0: 1; 


int success = 
System.exit (s 


ExampleMapper 类 实现 了 需求 的 主要 逻辑 ， 与 HBase 作 为 输入 源 的 逻辑 相似 ， 不 同 的 是 输出 部 分 不 再 是 简单 的 Text 类 型 的 Key 和 Value， 


Uuccess) ; 


Writable 类 型 ，ExampleMapper 类 的 代码 逻辑 如 下 : 


job) ; 


- 3* 24 * 3600 * 1000L, 


Bytes.toBytes ("qulifierl") ) ; 


192.168.1.12, 192.168.1.12") ; 


false) ; 


false) ; 


Text.class, Text.class, job): 


这 里 的 Key 使 用 mmutableBytesWritable 类 型 ， 而 Value 使 


public class ExampleMapper extends 
Mapper«LongWritable, Text, 
private byte[] family = null; 
private byte[] qualifier = null; 


private byte[] val = 


null; 


private String rowkey = null; 
private long ts = System.currentTimeMillis () ; 


GOverride 


ImmutableBytesWritable, 


protected void map (LongWritable key, 


throws IOException, 


try { 


String lineString - 
String[] arr — 


if (arr.l 


ength — 2) ( 


rowkey = arr[0]: 
String[] vals = arr[1].split ("Nu0001", -1) ; 
if (vals.length == 4) 


family = 


Text value, 
InterruptedException ( 


{ 


value.toString () ; 
lineString.split ("\t", -1) $ 


vals[0] .getBytes () ; 


qualifier = vals[1].getBytes O ; 
val = vals[2] .getBytes O ; 


ts = 


Long.parseLong (vals[3]) : 


Put put = new Put (rowkey.getBytes (0 , ts): 


put.add (family, 
context.write ( 
new ImmutableBytesWritable (rowkey.getBytes O ) , put): 


} 
) 
) catch (Excep 


tion e) { 


e.printStackTrace O ; 


i; 


qualifier, val); 


5.6 ”通过 Web UI 工 具 查 看 HBase 状 态 


Writable» ( 


Context context) 


HBase 提 供 了 一 种 Web 方 式 的 用 户 接口 


面 都 是 访问 时 刻 的 瞬时 状态 ， 


下 面 将 详细 解释 Web 界 面 工 | 


5.6.1 Master 状态 界 


所 有 的 界面 访问 都 通过 浏览 器 ， 直 接 在 浏览 器 中 输入 对 应 的 URL 即 可 。Master 状 态 页 面 的 访问 URL 由 两 部 分 组 成 : Master 节 点 的 IP 或 者 主机 名 、 端 口号 (默认 是 60010) ， 访 问 URL 示 例如 下 : 


户 可 以 通过 这 些 Web 界 面 


' 


这 些 信息 是 客观 、 


E 


公正 的 ， 可 以 通 


查看 HBase 集 群 属性 、 系 统 表 和 用 户 表 信 息 、RegionServer 信 息 、 请 求 信息 和 ZooKeeper 状 态 信息 等 。 很 重要 的 一 点 是 ， 


这 些 页 


这 些 页 面 实时 查看 整个 集群 的 信息 。Web 界 面 共 分 为 三 部 分 : Master 状 态 界面 、RegionServer 状 态 界面 和 ZooKeeper 统 计 信 息 页 面 ， 


http://192.168.1.11:60010/ 


通过 上 面 的 URL 访 问 后 会 看 到 Master 状 态 页 | 


面 的 详情 ， 该 页 面 分 为 5 大 部 分 : 


一 项 中 就 包含 系统 表 和 


RAX, 


页 面 详 


情 如 图 


5-15 所 示 。 


HBase 集 群 信息 、 任 务 信息 、 表 信息 、RegionServer 信 息 和 RIT 状 态 的 Region 信 息 。 每 个 部 分 又 包含 1~ 2 个子 项 


, BD, xe 


在 图 5-15 中 ， 属 性 信息 部 分 包含 了 HBase 版 本 、Hadoop 版 本 、HBase 主 路 径 、 平 均 负 载 、ZooKeeper 队 列 以 及 启动 时 间 等 静态 信息 ， 通 过 这 些 信息 可 以 简单 了 解 整个 集群 软件 框架 的 概况 ， 但 是 这 些 
内 容 并 不 常用 。 


任务 信息 部 分 包含 了 集群 正在 进行 的 所 有 任务 ， 包 括 一 般 读 写 请 求 、 分 裂 与 合并 的 处 理 、Region 迁 移 处 理 和 Region 分 配 等 。 有 些 处 理 过 程 速 度 非常 快 ， 所 以 在 该 部 分 页 面 并 没有 展现 ， 如 果 遇 到 HBase 
集群 异常 信息 时 ， 该 部 分 提供 的 一 些 信息 是 非常 有 用 的 。 


表 信 息 部 分 包含 系统 表 和 用 户 表 ， 在 HBase0.94.* 版 本 中 ， 系 统 表 包 含 .META. 和 -ROOT-， 用 户 表 就 是 用 户 自己 创建 的 表 。 该 图 中 共有 两 个 用 户 表 : example 和 realtime_adpv_stat。 用 户 表 不 仅仅 罗列 
了 所 有 表 名 ， 同 时 包括 表 的 简单 描述 信息 ， 可 以 查看 表 的 列 族 和 列 族 属性 。 


RegionServer 信 息 部 分 罗列 了 所 有 的 节点 信息 ， 该 图 中 共有 两 个 节点 : data-test-210 和 data-test-211， 同 时 在 最 右边 一 列 中 有 节点 负载 的 描述 ， 包 含 每 秒 请 求 数 、 在 线 Region 数 、 已 使 用 JVM 堆 大 小 
和 JVM 总 大 小 等 4 项 。 该 部 分 是 监控 中 经 常用 到 的 ， 特 别 是 每 秒 请 求 数 一 项 ， 可 以 直观 地 判断 访问 时 刻 的 集群 访问 压力 情况 ， 可 以 结合 该 值 判断 集群 负载 的 瓶颈 。 


RIT (Region in Transition) 信息 部 分 用 于 展示 正在 RIT 状 态 的 Region 列 表 ， 该 图 中 的 HBase 集 群 并 没有 RIT 状 态 的 Region ， 该 部 分 常用 在 定位 HBase 的 异常 问题 。 一 般 情况 下 ， 如 果 该 部 分 一 直 存在 一 
些 Region 列 表 信 息 ， 表 明 集群 已 经 出 现 异 常 问题 ， 当 然 ， 还 需要 通过 日 志 信息 最 终 判 定 问题 所 在 。 


Master: data-test-208:60000 APACHE 


Local logs, Thread Dump, Log Levcl, Debug duno, PSASE 


Attributes 


| Attribute Name | Value | Description 

Pase Yersion 0. 94, Q, r1332822 Pase version and revision 
HEase Compiled ue May 1 21:43:54 UTC 2012, jenkins Mhen HBase version was compiled and by whom 

Á— Version 1l. 9. 2, r1906954 doop version and revision 

oap Compiled ue Mar 27 16:24:17 UTC 2012, hortanfo en Hadoop version vas compiled and by whom 

Pese E: Directory|hdfs; //data-test 208; 9000/hbase | AID of —— home directory 
Load average | Average n nuber of "E regions per regionserver. Maive ve computation, | on. | 
Zockeeper Quorum accen 2181, dara-test-21 0:2181, data-test-208:2181] 
PFCs rs Keprocessors TI loaded loaded by the master 
Date stamp of when this Hlaster was started 
Hi:ster Active Time |Mon Feb 17 15:35:48 CST 2014 Date stamp of when this Hisster becare active 


Tasks 


Show All Monitored Tasks Show non-SPC Tasks Show All RPC Handler Tasks Show Active RPC Calle Show Client Operations View sg [SUN 
No taska currently running on this node. 


Tables 


Descriptlon | 


The -ROOT- table halds references to nall .META regions. 


|The MATA. table hslde referereez to all User Tale regi onz| 


Load is requests per sacond and count of regionas loaded 


Dead Region Servers 


Regions in Transition 


No regions in transition. 


图 5-15 Master 状态 信息 界面 


5.6.2. Regionserver 状 态 界面 


RegionServer 状 态 页 面 的 访问 URL 由 两 部 分 组 成 : RegionServer 节 点 的 IP 或 者 主机 名 、 端 口 (默认 是 60030) ， 访 问 URL 示 例如 下 : 


http://192.168.1.12:60030/ 


通过 上 面 的 URL 访 问 后 会 看 到 RegionServer 状 态 页 面 的 详情 ， 该 页 面 分 为 三 大 部 分 : RegionServer 节 点 属性 信息 、 任 务 信 息 和 Region 信 息 ， 页 面 详情 如 图 5-16 所 示 。 


RegionServer: data-test-210, 60020, 1392622565673 


Local logs. Thread Dump, Log Level, Debug àmo, 


Attributes 


Base Version |0.94. 0, r1332822 se version and revision 


ue May 1 21:43:54 UTC 2012, jenkins 


requestsPerSeconc-z0, nunberOfCOnlineRegions-4, mumberOiStores-4, numberOfStorsfiles-5, 

storefilelndexSireYB-0, TrootlIndtrSiteX92-205, totelStaticIndexfizeKB-145, totalStaticbiconSizekB-0, 
memetareSizeMB-O, readRequestsCount-258, writeRequestsCount-$, corpectior&utuüeSize-0, 

fluchQueueSize-0, usedleaplMB-37, maxHeaxplüB-335, blockCacheSizeN3-Z. 05, blcckCacheFreeNMP- 716. $2, 
blockCacheCount-?, blockCachekiltCount-123, olockCachelissCount-5, blockCacheZvictedUCountz2, 
blockCacheHitRatio-964, blockCacheHitCachinzRatic-365, hdfsBlccksLocalitvIndex-100, 

slowHLogAppendcount-Ü, deleteRequestlatencyNsan-2T)2000, deleteRequestLatencyCount-l, 
delete&equestiLatencyllecian-2702000, dele:eRequestlatencyT5thz 2702000, 

deleteRequestLaTenzy951b77102000, deleteRequestLet5ney$9th72162000, 

deieteRequestLatency999th-2702000, getnRequestLa:encylezn-2643583. 74, agetRequesrLatencyCount-532, RegionServer Wetrics; file 
getRequestLatencyfedimr-1121000, getkequestostencyi5tk-1396060, getkequestLatency95th-1542210060, and heap sizes ere in 
getRequestLatencyJIth=48782000, ge:kequestLatency93311748782000, putRequestLatencyMearr 0, egabytes 
putRequestLatencyCount=0, putRequestLatencyNedian-z0, putRequestLatencyTSth=0, 

puthequestlatency95thet, puthequestLatency93th-ü, puthequestLstency?93thU, 

sRead atencyHistogramMean-0, fsRenclatencydistogranCount-zü, fsRead ntencyHistog- ailledi an, 
fasRead.a-encyH:stogramTEth-0, fsRenclatencydistogran95thz0, fesRe5adlztencyFi stogramd9thz0, 
FsKeadLarencyHistogram$291h-C, fsPreadLatencyHistozramWean-0, fsPread.atercydistograrmCcunt-0, 
sPreadLatencyHistogramiediarn-0, isFrzadLatznicvHistogremíbtr0, fsPreasdLatencyHistogran35tbE0, 
fsPreadLatencyHistogram99tkh70, fsPresdzatencyH:stogran999th70, feEritsLatencyHi stogreue an-0, 
gWriteLatencvHistogramCountzC, feWritsLatencyHistogramfediar-0, feWriteLstencyHistograemi5thEU, 
sWriteLaten:vilistogram?5th-O0, fsWritsLaten:yilstozram?;9th-0, feWriteLatercylistogranJ99th-0 


Oprocessors currently 
Penh eseber ts setisierre 
RS Start lime [Mon Feb 17 15:36:05 CST 2014 iode aede sim 


region server wes started 


Haze Master laaz s-test-203:60010 jatess of HBase Raster 
Tasks 


Shos Àll Moniiorec Tasks Show non-RPC Tasks Shoe All RPC Handler Tasks Shos Active 3PC Calls Show Client Orcrations View az ISCON 
No tasks currently runring or. this rode. 


Regions 


: Start End F 
| Region Nase Key Key Netrics 


srüfStores-i, nunberüfStorefilesz-2, 
istorefileUncompressedSizelB-0, storefileSizeNB=0, 

-ROOT-. . 0. T0236052 torcSizcNP-0, storcfileIndcxSircWBz0, rcodRcequcstsCountz76, 

xii itsRequestsCount-1l, rootIndexSizeK5-0, totalStaticIndexSizeKDB-0, 
LotalStaticDlounGizeKD-0, totalCompactingKVs-0, 
currentCompaciedEVg-0, compactlonProgressPctzNaN, coprocessorg-[] | 

&rÜfStarescl, mmberOfStorefilez-l, 
starsfilelncompressedSizelB-0, sterefileSizeNB-0, 

EZTA., 1.10287805192 toreSizeND-0, storefileIndexSizeMD-0, readRequestsCount-1líi, 
i THES itsRequestsCount-6, raotIndexSizeK2-0, totalStaticIndexSizeKD-0, 
totalStaticBloamSizeEPE-0, totalCompactingKVs-6, 
curzentCompactedKVs-5, compactionProzressP:t-0.0, coprocesscrs-[] 
srüfStores-l, nunberOfStorsfiles-0, 
sturzfilelncumpressedSizelMD-0, stuzcfileSizcMD-O0, 

z T. 3 = toreSizeMP-0, storefileľlndssSizeMB=ġ0, readRequestsCount=7, 
p e SEO aSa Ts iteRequestsCount-2, rootIndsrSizekð=0, totalStaticIndexSizeKB-0, 
totalStaticBloomSizeEB-0, totalCompactingkVs-0, 
cuv entCompnetedKVa-ü, compactionProgressPetzNoN, coprocessora-[] 
uuaberOfStores-1, numberOfStorefiless-2, 
storefileUncompressedSizeMP-112, storefilsSizeWD7112, 


omoressionRatio-1. 0000, menetoreSizeMPz0, storefileIndexSizeMB=0, 
caltime adpv stat, , 1390297720978. d602236db195bec46235Tacc1 d15ea86. rcadRequestsCcunt-0, writeRequestsCount-z0, rootindexSizcKP-204, 


atalStaticindexSizckB-145, totalStaticBlaorSiz-EB-(, 
otalComoacting&Vc-0, currentCompactediV5-0, 
ompactianProgregsPet-Mal, coprocezsors-[] 


Region names ars made of the containing table s namc, a comma, the start kcy, a commo, and a randomly gcncrarcd rcgicn id. To illustrate, the 
region named dhmafrs pache. ovg, 54648294242) 1255407 ia party to the table düumrins, has an id of 54545294242]11265407 end the first key in the 
reglon is apache arg. The AMOT- and . KETA. "tables" are internal sytem tables (nr 'catalog! tables in db-speak). The -RDOT- keeps a list of all 
regions in the . META. table. The .JETA table kesps a list of all regions in the system The empty key is used to denote table start and table 
end. A resion with an srpty start key is the first regiun in a table. If region hus both an cupty stari and an cupty end key, its the only region 
in the table. Ses HBase Home for further explication. 


图 5-16 ”RegionServer 状 态 信息 界面 


在 图 5-16 中 ， 属 性 信息 和 任务 信息 与 Master 页 面 类 似 ， 这 里 不 再 累 述 。Region 信 息 部 分 的 表格 包含 4 列 : Region 名 称 、 开 始 行 键 、 结 束 行 键 和 Region 统 计 矩 阵 信息 。 这 些 信息 平时 在 运 维 过 程 中 用 得 
比较 少 。 


5.6.3 ”ZooKeeper 统 计 信 息 页 面 


ZooKeeper 统 计 信 息 页 面 的 访问 URL 由 三 部 分 组 成 : Master 节 点 的 IP 或 者 主机 名 、 端 口 (默认 是 60010) 、zkjsp 页 面 ， 访 问 URL 示 例如 下 : 


http://192.168.1.11:60010/zk.jsp 


通过 上 面 的 URL 访 问 后 会 看 到 ZooKeeper 统 计 信息 页 面 的 详情 ， 该 页 面 其 实 是 非常 简单 的 半 结 构 化 的 文本 打印 信息 ， 没 有 使 用 严格 的 统计 格式 ， 页 面 中 简单 罗列 了 HBase 在 ZooKeeper 中 的 注册 信息 和 
ZooKeeper 节 点 统计 信息 ， 页 面 详情 如 图 5-17 所 示 。 


ZooKeeper Dump 


Master, Local loss, Thread Lum», Los Level 


Hase is rosted at /hbase 
Active marler address: data-test-208, 62000, 1392622547310 
Backup master addresses: 
Region server holding ROOT: dats-test-210,60020, 1392622525613 
Region servars: 
data-test-210, 60020, 1392622515673 
data-tezt-211, 60020, 1392622581318 
Quorum Server Statistics: 
data-test-211:2181 
Zookeeper version: 2.4.5-1332090, built on 00/30/2012 17:52 GMT 
Clients: 
/182. 168. 205. 21 1:4: 49 1] (queucd-0, rccved-572, sent -527? 
7192. 168. 205. 208: 5734 [0] (queued-0, recved-l, senz70) 
192. 165, 208. 205: 5692511] (queuedz0, rccvedz511, sentz615) 
£182. 168, 205. 2: 1: 5FT68 1] KQquenedzn, recvedz675, gent 26527) 


Latency mm/wvgímmwx: 1/1/23 
Received: 1544 
Sent: 1844 
Connections: 4 
Oustandirg: 0 
Izid: Ox1C7000004c 
Hode: lealer 
Node count: 21 
dat s7t est 7210: 2:81 
icokeepsr version: 2.4.5-1332090, built on 08/30/2012 17:52 GMT 
Clients: 
7192. 168. 205. 208: 31264 [0] (queued-0, recved- 1, zanz-0) 
7192. 168, 205, 2:0: 34806 (1] (queued-0, recved-627, tent 7627! 
/192, 168, 205. 2081 26808 1] (queued-0, recved- 702, sent -825! 


Latency nàn/avg/max: 0/2/65 
Received: 1421 
Sent: 1456 
Corrections: 3 
Outstanding: 0 
Zxiéi 0«10200004c 
Hois: follower 
Moe count: 2l 
dat 2-1621-228:2181 
iockeeper vercion: 3.4.5-1382090, built on 09/30/2012 17:52 GMT 
Clien:s: 
7/162, 168. 205, 208:48373[0! (queuedn0 vecvedel, sertm0) 
/ 182. 168. 205. 210:40578 [1] (queuod=0, re-vede 68), cent=686) 
7/182. 168. 208, 211:32324 [1] (queuedt=D re cvede62T, «ent-621) 


Latency nin/mvg/nax: (/fy5n 
Received: 1314 

Sert: 1318 

Corrections: 3 
Dutstandang: U 

IEiG: Ux1UJUUUU4C 

Woce: follower 

Noie count: 2l 


图 5-17 ZooKeeper 统 计 信 息 信息 页 面 


57 ”其 他 客户 端 


当然 ， 除 了 前 面 讲 到 的 原生 Java 客 户 端 、HBase Shell 工 具 、Thrift、REST、MapReduce 和 Web 界 面 等 客户 端 ， 还 有 一 些 其 他 客户 端 ， 这 些 客户 端 在 实际 工作 中 使 用 的 频 度 不 高 ， 这 里 简单 介绍 一 下 这 
些 客户 端 ， 读 者 可 以 选择 性 阅读 。 


1.Avro 客 户 端 

Avro 是 一 个 数据 序列 化 系统 ， 它 提供 了 非常 丰富 的 功能 : 
“丰富 的 数据 结构 

“ 一 个 简约 的 、 快 速 的 、 二 进 制 数据 格式 

“ 一 个 容器 文件 ， 用 于 存储 持久 数据 

“ 远程 过 程 调用 (RPC) 


“ 和 其 他 动态 语言 的 简单 集成 


同 Thrift 类 似 ，HBase 自 身 也 提供 了 Avro 访问 的 支持 ， 语 言 方面 能 够 兼容 Java、C++、PHP、Python 和 Ruby 等 。 其 服务 端 启动 方法 与 Thrift 类 似 ， 直 接 使 用 Shell 命 令 启动 。 客 户 端 的 使 用 需要 编译 特定 
的 Schema， 对 Avro 感 兴趣 的 读者 可 以 从 Apache 和 HBase 官 网 查阅 相关 的 资料 。 


2.JRuby 客 户 端 


前 面 讲 到 了 HBase Shell 底 层 使 用 JRuby 实 现 ， 所 以 JRuby 自 身 是 可 以 直接 访问 HBase 的 ， 使 用 JRuby 不 仅 可 以 为 HBase ShelI 添 加 新 的 特征 ， 还 可 以 使 用 HBase Shell 直 接 调 用 JRuby 脚 本 实现 一 些 功能 。 


感 兴趣 的 读者 可 以 参考 http://wiki.apache.org/hadoop/Hbase/JRuby 中 的 介绍 。 


3.AsyncHBase 客 户 端 


AsyncHBase 是 另外 一 种 Java 客 户 端 ， 是 完全 异步 的 ， 这 意味 着 它 不 会 阻塞 访问 应 用 的 线程 。 该 客户 端 优先 考虑 线程 的 安全 性 ， 专 为 多 线程 实现 设计 。AsyncHBase 在 异步 类 库 async 上 创建 ， 效 仿 


Python Twisted 库 的 异步 处 理 组 件 。Async 人 允许 通过 针对 异步 计算 的 链 式 连续 动作 建立 数据 处 理 管道 。 


AsyncHBase 非 常 有 名 的 部 署 是 OpenTSDB， 一 个 基于 HBase 的 监控 系统 ， 这 两 个 框架 都 是 同一 个 社区 编写 和 维护 的 ， 虽 然 没有 Hadoop 和 HBase 的 社区 大 ， 但 使 F 


兴趣 的 用 户 可 以 参见 https://github.com/OpenTSDB/asynchbase 上 的 相关 介绍 。 


5.8 ”本 章 小 结 


本 章 讲 解 现 有 HBase 的 客户 端 ， 从 细 处 讲解 了 原生 Java 客 户 端 、HBase Shell 工 具 、Thrift、REST、MapReduce 操 作 HBase 和 HBase 的 Web 界 面 等 部 分 ， 简 单 介绍 了 Avro、JRuby 和 AsyncHBase 客 户 


端 ， 基 本 涵盖 了 比较 常用 的 HBase 相 关 的 客户 端 工具 。 章 节 中 列举 了 大 量 的 示例 和 图 片 ， 希 望 最 大 程度 帮助 读者 理解 这 些 内 容 。 


当然 ， 还 有 一 些 其 他 的 第 三 方 客 
相关 资料 。 


了 
ES 


AsyncHBase 的 用 户 在 逐步 上 升 ， 感 


工具 ， 例 如 ，PyHBase、JDO/JPA 等 比较 生僻 的 客户 端 ， 因 为 这 些 第 三 方 客 户 端 相当 小 众 ， 所 以 本 章 没有 罗列 这 些 客 


户 端 的 内 容 ， 感 兴趣 的 读者 可 以 通过 网 络 查阅 


本 章节 中 讲解 的 内 容 都 基于 HBase API 的 Javadoc， 所 以 在 阅读 的 过 程 中 如 果 遇 到 疑问 首先 可 以 查阅 官方 API 的 文档 ， 但 需要 注意 一 点 ， 有 些 API 的 实现 过 程 中 ， 并 没有 详细 的 注释 ， 所 以 需要 读者 结合 


示例 和 源 代码 理解 内 部 逻辑 。 


“第 6 章 ”整合 SQL 引 擎 层 
-BTE ”构建 音乐 站 用 户 属性 库 


.第 8 章 构建 广告 实时 计算 系统 


第 6 章 ”整合 SQL 引 擎 层 


本 章 将 为 读者 介绍 NoSQL 的 基本 概念 ， 在 HBase 搭 建 SQL 引 擎 层 的 原因 ， 现 有 HBase 整 合 SQL 引 擎 层 的 解决 方案 ， 详 细 的 安装 、 使 用 i 


经 过 5 年 的 发 展 ，HBase 已 经 成 为 NoSQL 数 据 库 的 典型 代表 之 一 ， 在 业内 广泛 应 用 ,但 是 HBase 自 身 也 存在 一 些 问题 ， 其 中 备 受 关注 的 一 个 是 其 私有 API 的 学 习 成 本 。 相 对 于 学 习 另 一 套 私 有 API， 无 论 


是 成 本 上 ， 还 是 便捷 性 上 ， 人 们 更 倾向 于 使 用 熟悉 的 语言 来 读 写 数据 。 使 用 SQL 这 样 易于 理解 的 语言 可 以 使 人 们 更 加 轻松 地 使 用 HBase， 类 似 使 用 Hive。 


业内 已 经 提出 了 一 些 解决 方案 ， 类 似 整合 Hive 和 HBase、Phoenix、Impala 等 ， 这 些 方案 都 从 某 种 程度 上 解决 了 HBase 使 


同 的 解决 方案 。 


6.1 NoSsQL 背 景 知识 


NoSQL (Not Only SQL， 非 关系 型 数据 库 ) 的 特性 之 一 是 不 使 用 SQL 作为 查询 语言 ， 本 节 简 单 介绍 NoSQL 定 义 ， 为 何在 NoSQL 上 定义 SQL 引擎， 以 及 现 有 基 


6.1.1 什么 是 NoSQL 


(NoSQL: If Only It Was That Easy》 中 提 到 ， 在 Web 领 域 ， 如 果 说 “rails” 无 法 扩展 ， 那 就 意味 着 “你 的 
解 ， 并 且 随 着 NoSQL 技 术 的 完善 和 成 熟 ， 这 种 情况 将 会 从 根本 上 解决 。 


NoSQL 是 对 不 同 于 传统 关系 型 数据 库 的 数据 库 系统 的 统称 。 两 者 有 很 多 显著 的 不 同 点 ， 其 中 最 重要 的 是 NoSQL 不 使 用 SQL 作为 查询 语言 。 其 数据 存储 可 以 不 需要 固 


的 问题 。 这 些 解决 方案 各 有 优 劣 ， 读 者 可 以 根据 自己 兴趣 和 具体 业务 选用 不 


FHBase 的 SQL 引擎 的 具体 实现 。 


关系 型 数据 库 无 法 扩展 ”。 但 是 这 样 的 情况 ， 随 着 NoSQL 的 出 现 已 经 得 到 很 大 程度 的 缓 


定 的 表格 模式 ， 也 经 常会 避免 使 有 


SQL 的 JOIN 操作 ， 一 般 具 备 水 平 扩展 的 特征 。NoSQL 的 实现 具有 两 个 特征 : 使 用 硬盘 ， 或 者 把 随机 存储 器 (Random Access Memory, RAM) 作为 存储 载体 。 


NoSQL 一 词 最 早出 现 于 1998 年 ， 是 Carlo Strozzi 开 发 的 一 个 轻 量 、 开 源 、 不 提供 SQL 功能 的 关系 型 数据 库 。2009 年 ，Last.fm 的 Johan Oskarsson 发 起 了 一 次 关于 分 布 式 开源 数据 库 的 讨论 ， 来 自 
模式 。2009 年 在 亚特兰大 举行 的 “no:sql (east) ”讨论 会 是 一 个 里 程 碑 ， 其 口号 


Rackspace 的 Eric Evans 再 次 提出 了 NoSsQL 的 概念 ， 这 时 的 NoSQL 主 要 指 非 关 系 型 、 分 布 式 、 不 提供 ACID 的 数据 


库 设 讨 


Æ "select fun, profit from real world where relational-false; ”。 因 此 ， 对 于 NoSQL， 最 普遍 的 解释 是 “ 非 关 联 型 的 ”， 强 调 键 值 存储 和 文档 数据 库 的 优点 ， 而 不 是 单纯 地 反对 RDBM S。 


61.2 ”将 SQL 整合 到 HBase 的 原因 


现 有 的 SQL 解决 方案 通常 都 不 是 水 平 可 伸缩 的 ， 因 此 当 数 据 量 变 大 时 会 遇 到 阻碍 。 我 们 已 经 知道 NoSQL 区 别 
HBase 上 提供 SQL 接口 ， 有 如 下 三 个 原因 。 


1) 使 用 诸如 SQL 这 样 易 于 理解 的 语言 ， 使 人 们 能 够 更 加 轻松 地 使 用 HBase。 


相对 于 学 习 另 一 套 私有 API， 无 论 从 成 本 还 是 便捷 性 上 考虑 ， 人 们 更 倾向 于 使 用 熟悉 的 语言 来 读 写 数据 。 


2) 使 用 诸如 SQL 这 样 更 高 层次 的 语言 来 编写 ， 减 少 了 编写 的 代码 量 。 


关系 型 数据 库 的 一 点 就 是 NoSQL 不 使 用 SQL 作为 查询 语言 ， 至 于 为 何在 NoSQL 数 据 存储 


例如 ， 可 以 使 用 下 面 的 SQL 语句 来 统计 数 


SELECT 

stat date, 

count distinct uid, 
count distinct ip, 
FROM page view 


WHERE domain LIKE '$adintellig$' 


GROUP BY stat date: 


3) 执行 查询 时 ， 在 数据 访问 与 运行 时 执行 之 间 加 上 SQL 这 样 一 


例如 ， 对 于 GROUP BY 查询 来 阅 ， 利 


BY， 这 是 根据 行 键 的 范围 


基于 上 面 三 点 考虑 ， 将 SQL 整合 到 NoSQL 系 统 由 基本 的 H 


6.1.3 ”基于 HBase 的 SQL 引擎 实现 


现 阶 段 业 内 有 一 些 关于 HBase SQL 引擎 
作为 对 开源 实现 的 补充 ， 以 


1.Hive 整 合 HBase 


Hive 与 HBase 的 整合 功能 从 Hive 0.6.0 版 本 已 经 开始 出 现 ， 利 
本 变动 ， 所 以 并 不 是 每 个 版 本 的 Hive 都 能 和 现 有 的 HBase 版 本 进行 整合 ， 


两 者 对 外 的 API 接 


居 ， 而 如 果 使 用 HBase Client API 则 不 可 避免 使 


层 抽象 可 以 进行 大 量 优化 。 


诸多 代码 ， 并 


反复 编译 调试 过 程 很 痛苦 。 


户 参与 ， 


和 场 需求 驱动 ， 接 下 来 的 内 容 会 介绍 现 有 HBase 上 SQL 引 擎 的 具体 实现 。 


层 的 尝试 ， 已 经 有 一 些 比 较 稳 定 的 解决 方案 和 实现 ， 其 中 大 部 分 都 已 经 开源 。 接 下 来 的 讲解 中 也 会 有 一 些 商 
EF 富 读者 的 知识 面 。 


互相 通信 ， 通 信 主 要 依靠 hive_hbase-handler.jar 工 . 
因此 对 版 本 的 范围 要 求 比较 严格 。 例 如 ，hive-0.9.0 需 要 使 


户 只 需 发 出 查询 即 可 。 


HBase 中 协同 处 理 器 ， 聚 合 可 以 在 服务 器 执行 ， 而 不 必 在 客户 端 ， 这 么 做 会 极 大 减少 客户 端 与 服务 器 之 间 传 输 的 数据 量 。 此 外 ， 也 可 以 在 客户 端 并 行 执行 GROUP 
来 截断 扫描 而 实现 的 。 通 过 并 行 执行 ， 结 果 会 更 快 地 返回 。 所 有 这 些 优 化 都 无 须 


hbase-0.92.0 版 本 ， 低 版 本 和 高 版 本 都 无 法 使 


别 注 意 的 就 是 两 者 版 本 的 一 致 性 ， 至 于 这 一 点 可 以 参考 官方 文档 对 版 本 的 要 求 (https://cwiki.apache.org/confluence/displaWHive/HBaselntegration) 。 


2.Phoenix 


Phoenix 由 Salesforce.com 开 源 ， 是 构建 在 Apache HBase 之 上 的 一 个 SQL 中 间 层 ， 可 以 让 开发 者 在 HBase 上 执行 SQL 查询 。Phoenix 完 全 使 
嵌入 的 JDBC 驱 动 。 根 据 项 目 所 述 ，Phoenix 被 Salesforce.com 内 部 使 
job， 而 是 通过 标准 化 的 语言 来 访问 HBase 数 据 。 根 据 项 目 创建 者 所 述 ， 对 于 10 万 到 100 万 行 的 简单 查询 来 说 ，Phoenix 要 胜 过 Hive。 对 于 使 
OpenTSDB 来 说 ， 进 行 相似 的 查询 Phoenix 的 速度 也 会 更 快 一 些 。 


3.Kundera 


Kundera 是 一 个 JPA 2.0 兼 容 的 NoSQL 数 


简单 的 低 延 迟 查 询 ， 其 量 级 为 毫秒 ;对 了 


非 开源 的 实现 方案 ， 不 过 不 会 作为 主 


包 (Hive Storage Handlers) 。 


由 于 HBase 有 一 次 比较 大 的 版 
。 所 以 在 使 用 过 程 中 特 


届 存 储 的 对 象 映 射 框架 。Kundera 基 于 现 有 类 库 构 建 ， 封 装 出 简易 的 AP1， 其 主要 特性 有 : 


“ 支持 交 又 数据 存储 持久 性 ， 这 意味 着 用 户 可 以 在 不 同 的 数据 存储 使 用 单一 方法 存储 和 获取 相关 实体 。 


“能够 很 好 地 管理 事务 ， 


“ 兼容 JPA 2.0， 严 格 使 用 JPA 注 释 对 象 映射 到 数据 存储 表 。 


同时 支持 EntityTransaction 和 Java Transaction API (JTA) 。 


“ 目前 支持 的 NoSQL 服 务 器 包括 : Cassandra、HBase、MongoDB、Redis、OracleNoSQL、Neo4j 等 。 


4.Lealone 


Lealone 是 原 淘宝 工程 师 开 发 的 开源 项 目 ， 之 前 的 名 字 是 YourBase， 是 可 
的 事务 模型 ， 是 对 H2 关 系数 


5.hbase-sql 


在 HBase 提 供 的 APl 中 ,使 


EJE] 


Scan 来 查询 数据 ， 在 hbase-sq| 实 现 过 程 中 将 SQL 语句 转 成 Scan， 然 后 进行 : 


于 HBase 的 分 布 式 SQL 引擎 ， 支 持 高 性 能 的 分 布 式 事务 ， 使 


一 个 非常 新 颖 的 、 基 于 


的 改进 和 扩展 ， 是 一 个 100% 纯 Java 的 将 BigTable 和 RDBMS 融 合 的 数据 库 。 


体 查询 ， 概 要 处 理 流程 如 下 : 


Java 编 写 ， 代 码 位 于 GitHub 上 ， 并 且 提 供 了 一 个 客户 端 可 
F 百 万 级 别 的 行 数 来 说 ， 其 量 级 为 秒 。Phoenix 并 不 像 HBase 那 样 
了 HBase API、 协 同 处 理 器 及 自 定 义 过 滤器 的 Impala 与 


于 map-reduce 


局 部 时 间 戳 的 多 版 本 冲突 与 有 效 性 检测 


SQL 语句 -> SQL 解析 器 -> SQL 语法 节点 〈 对 象 ) -> Scan -> hbase -> ResultScanner -> List«DynaBean» 


由 于 该 项 目 已 经 有 一 段 时 间 没 有 更 新 ， 能 否 满足 


6.Interactive Query 


Interactive Query 是 Intel 研 发 的 基于 HBase 的 SQL 引擎 


6-1 所 示 。 


层 ， 是 非 开 源 的 ， 是 Intel Hadoop 发 行 版 的 一 个 模块 ， 使 


封装 的 HBase 查 询 引擎 


层 来 解析 HiveQL， 该 引擎 层 拥 有 更 高 的 性 能 ， 其 架构 


户 的 需求 还 有 待考 证 。 这 里 不 对 该 项 目 做 过 多 讲解 ， 如 果 读者 有 兴趣 可 以 进行 深入 研究 ， 详 细 信 息 请 参见 http://code.google.com/p/hbase-sql/。 


pus 


D 


图 6-1 Interactive Query 架 构图 
从 架构 图 上 可 以 得 知 ，Intel 使 用 封装 后 的 SQL 解 析 层 替换 了 Hive 原 有 SQL 解 析 层 ， 使 用 Coprocessor 进 行 数据 在 服务 器 的 聚合 计算 ， 最 大 程度 地 提升 查询 效率 。 其 SQL 引 擎 层 的 基本 实现 思路 是 : 
. 绝 大 部 分 “select” 自 动 优化 使 用 HBase Query |f. 其中，“WHERE” 使 用 高 级 的 scanner/filter，“GROUP-BY” 使 用 分 布 式 聚合 算法 。 
© OIN” 仍 然 使 用 MapReduce。 


其 SQL 解析 的 数据 流程 图 如 图 6-2 所 示 。 


Hive QL 


图 6-2 Interactive Query 数 据 流程 图 


7.Impala 


Cloudera 发 布 实时 查询 开源 项 目 Impala (HHH) ， 经 多 款 产 品 实测 表明 ， 比 原来 基于 MapReduce 的 Hive SQL 查询 速度 提升 3~90 倍 。Impala 是 Google Dremel 的 模仿 ， 但 在 SQL 功 能 上 青出于蓝 而 
胜 于 蓝 。 


Impala 采 用 与 Hive 相 同 的 元 数据 、SQL 语 法 、ODBC 驱 动 程序 和 用 户 接口 (Hue Beeswax) ， 这 样 在 使 用 CDH 产 品 时 ， 批 处 理 和 实时 查询 的 平台 是 统一 的 。 目 前 支持 的 文件 格式 是 文本 和 


SequenceFiles (可 以 压缩 为 Snappy、GZIP 和 BZIP， 前 者 性 能 最 好 ) 。 其 他 格式 如 Avro、RCFile 和 LZO 将 在 正式 版 中 得 到 支持 。 


但 是 Impala 的 使 用 有 局 限 性 ， 只 能 使 用 Hadoop CDH 4.1 以 上 版 本 ， 对 于 原生 Hadoop 系 统 不 支持 ， 对 于 操作 系统 兼容 性 也 不 好 ， 支 持 以 下 操作 系统 : 


- Red Hat Enterprise Linux (RHEL) 5.7/6.2 或 CentOS 5.7/6.2。 
- SLES 11 with Service Pack 1 及 以 上 。 


* Ubuntu 10.04/12.04 或 Debian 6.03. 


下 面 的 章节 将 着 重 讲解 ，Hive+HBase、Phoenix、Kundera、Lealone 等 开源 实现 的 细节 和 使 用 方法 。 


6.2 ”Hive 整 合 HBase 的 实现 


Hive 是 基于 Hadoop 的 一 个 数据 仓库 工具 ， 可 以 将 结构 化 的 数据 文件 映射 为 一 个 数据 库 表 ， 并 提供 完整 的 SQL 查询 功能 ， 可 以 将 SQL 语句 转换 为 MapReduce 任 务 来 运行 。 其 优点 是 学 习 成 本 低 ， 可 以 通 


过 类 SQL 语句 快速 实现 简单 的 MapReduce 统 计 ， 不 必 开 发 专门 的 MapReduce 应 


6.2.1 认识 Hive 


Hive 是 Facebook 于 2008 年 8 月 开源 的 一 个 数据 仓库 框架 ， 其 系统 目标 与 Pig 有 相似 之 处 ,但 它 有 一 些 Pig 目 前 还 不 支持 的 机 制 ， 例 如 更 丰富 的 类 型 系统 、 更 类 似 SQL 的 查询 语言 、Table/Partition 元 数据 


,十 分 适合 数据 仓库 的 统计 分 析 。 本 节 将 全 面 介绍 Hive 整 合 HBase 的 安装 、 部 署 、 使 用 以 及 异常 排查 。 


的 持久 化 等 。 通 过 Hive， 可 以 方便 地 进行 ETL 的 工作 。Hive 定 义 了 一 个 类 似 于 SQL 的 查询 语言 : HQL， 能 够 将 用 户 编写 的 QL 转化 为 相应 的 MapReduce 程 序 基于 Hadoop 执 行 。 目 前 ， 在 Facebook 内 部 
Hadoop 集 群 任务 中 ，Hive 任 务 占 整个 任务 的 90%， 在 国内 几 个 互联 网 巨头 的 Hadoop 集 群 使 用 中 亦 是 如 此 ， 可 见 ，Hive 作 为 一 个 数据 仓库 框架 已 经 被 业内 普遍 接受 并 广泛 使 用 。 


早 在 Hive 0.6.0 版 本 ， 已 经 引入 了 Hive 和 HBase 整 合 的 实现 一 一 hive-hbase-handler-0.6.0.jar。 该 实现 基于 Hive Storage Handlers， 实 现 的 动机 是 通过 模块 和 扩展 的 方式 使 得 Hive 能 够 访问 和 管理 其 他 
系统 的 数据 。 不 光 能 够 访问 HBase，Hive Storage Handlers 同 时 也 整合 了 HyperTable (类 似 HBase 的 基于 列 的 分 布 式 数据 库 ) 。 其 他 ， 例 如 MongoDB、Cassandra、Google Spreadsheets 的 整合 实现 也 


在 开发 中 。 


1.Hive 中 的 表 


期 ，Hive 已 经 有 了 内 部 表 和 外 部 表 的 概念 。 它 们 的 概念 分 别 如 表 6-1 所 示 。 


表 6-1 内 部 表 和 外 部 表 


名 称 功能 描述 
内 部 表 通过 Hive 元 数据 存储 管理 ， 并 且 Hive 负责 数据 存储 的 表 
外 部 表 通过 外 部 目录 管理 ，Hive 并 不 负责 数据 存储 (如果 删除 Hive 中 的 表 ， 并 不 会 删除 原 有 数据 ) 


Hive Storage Handlers 引 入 了 另外 两 个 概念 : 本 地 表 (native) 和 非 本 地 表 (non-native) 。 如 表 6-2 所 示 。 


表 6-2 本 地 表 和 非 本 地 表 


名 称 功能 描述 
本 地表 不 需要 通过 Hive Storage Handlers 管理 的 表 
IUE 必须 通过 Hive Storage Handlers 管理 的 表 


以 上 4 个 概念 是 正 交 关系 ， 因 此 Hive 中 存在 4 类 表 ， 如 表 6-3 所 示 。 


表 6-3 Hive 所 有 表 的 功能 描述 


名 W 功能 描述 
内 部 - 本 地 表 创建 表 时 使 用 CREATE TABLE 
外 部 - 本 地 表 创建 表 时 使 | CREATE EXTERNAL TABLE 日 没有 STORED BY 条 件 语句 


内 部 - 非 本 地 表 


创建 表 时 使 用 CREATE TABLE 目 有 STORED BY 条 件 语句 。Hive 将 定义 存储 在 元 数据 存 
储 中 ， 但 不 创建 任何 文件 ， 通 过 请 求 Hive Storage Handlers 生成 相应 E d 


外 部 - 非 本 地 表 
外 部 - 非 本 地 表 | 存储 中 注册 相应 信息 ， 


创建 表 时 使 用 CREATE EXTERNAL TABLE 日 有 STORED BY 条 件 语 句 。Hive 在 元 数据 
通过 Hive Storage Handlers 检查 和 其 他 系统 是 否 匹 配 


Hive 整 合 HBase 所 使 用 的 表 都 是 内 部 - 非 本 地 表 和 外 部 - 非 本 地 表 。 下 面 是 一 个 建 表 的 代码 示例 : 


CREATE TABLE hbase table 1 (key int, value string) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 
WITH SERDEPROPERTIES ( 


"hbase.columns.mapping" = "cf: c1", 
"hbase.table.name" = "hbase table 1" 
Ji 

2.Hive 架 构图 


Hive 整 体 架 构图 如 图 6-3 所 示 。 


Browser Browser 


HiveServer 


(Thrift) 


Driver Driver Driver Driver 


MetaStore MetaStore 


NameNode JobTracker NameNode JobTracker 


DataNode DataNode 
* 十 
TaskTracker TaskTracker 


图 6-3 Hive 架 构图 
Hive 有 以 下 几 方 面 特性 : 
< HiveQL 作 为 查询 接口 ; 
< HDFS 作 为 底层 存储 ; 
- MapReduce 作 为 执行 层 。 
通过 这 几 方 面 特性 和 Hive 架 构图 ， 能 够 非常 清晰 地 了 解 Hive 的 内 部 实现 整体 结构 。 
- Client: 包含 CLI[、HWI、ThriftServer、JDBC、ODBC 等 。 
+ MetaStore: 存放 元 数据 的 模块 。 
Driver: 编译 、 优 化 、 执 行 Hive SQL 的 模块 。 
3.Hive 整 合 HBase 架 构 


Hive 整 合 HBase 使 用 Hive Storage Handlers 方 式 ，Client 和 MetaStore 层 并 不 需要 变动 ， 所 有 的 变动 都 在 Driver 层 。 常 规 的 Hive 任 务 在 Driver 层 会 解析 为 MapReduce 任 务 ， 到 Hadoop 集 群 上 执行 并 返 
回 结果 。 而 使 用 Hive Storage Handlers 之 后 ，Driver 会 调用 Handlers， 将 任务 解析 映射 到 HBase 集 群 (直接 访问 或 者 转化 为 MapReduce 访 问 ) 并 返回 结果 。Hive 整 合 HBase 的 架构 如 图 6-4 所 示 。 


6.2.2 Hivež g 


好 的 亲和力 。 尽 管 Hadoop 是 基于 Java 开 发 的 ， 而 Java 又 是 一 门 跨 平台 的 语言 ， 但 由 于 Hadoop 的 部 分 模块 和 功能 的 实现 是 基于 Linux 系 统 的 ， 所 以 对 于 其 他 系统 ， 尤 其 是 对 Windows 的 支持 并 不 好 。 在 下 
章节 的 讲解 中 ， 采 


章 已 经 有 过 详细 盖 述 。 对 于 没有 Hadoop 集 群 的 读者 ， 可 以 自己 尝试 搭建 一 个 测试 集群 ， 搭 建 集群 的 教程 在 官网 和 其 他 个 人 博客 上 有 很 多 中 英文 资料 ， 读 者 可 以 根据 自身 情况 自行 决定 。 
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4.Hive 整 合 HBase 的 优 缺 点 
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图 6-4 Hive 整 合 HBase 架 构图 


Hive 整 合 HBase 是 现 阶段 比较 成 熟 的 一 套 基 于 HBase 实 现 SQL 引 警 的 方案 ， 现 在 业内 的 使 


也 较 多 一 些 ， 但 是 每 一 个 项 


都 有 其 优势 和 劣势 ，Hive 整 合 HBase 方 案 的 优点 和 缺点 如 表 6-4 所 示 。 


表 6-4 Hive 整 合 HBase 方 案 的 优点 和 缺点 


e 配置 、 使 用 简单 ， 大 大 提高 使 用 效 熟悉 SQL 查询 速度 慢 。 大 部 分 操作 都 需要 局 动 MapReduce， 查 询 
或 者 熟悉 Hive 使 用 的 读者 ， 可 以 车 £2]| 过程 比较 耗 时 
成 本 低 对 HBase 集群 的 访问 压力 比较 大 ， 每 个 MapReduce 任务 
e 减少 所 需 编写 代码 量 都 需要 启动 N 个 Handler 连接 HBase 集群 这样 会 大 量 


LJ 低 耦 全 整合 合 
有 较 大 耦合 度 

e iH Apache 官方 提供 ， 
比较 及 时 ，busg 比较 少 ， 可 以 用 


对 Hive 和 HBase IT) [dfi FE 48 IT, 


从 Hive 0.6 开始 文 持 ， 更 新 


上 生产 环境 


HBase 的 环境 准备 


对 于 绝 大 部 分 公司 而 言 ， 


的 Linux 操 作 系统 。 


的 是 业内 最 常 


占用 HBase 连接 ,造成 资源 使 用 紧张 
列 映射 有 诸多 限制 。 现 有 版 " 的 列 映射 以 及 Rowkey 
的 限制 很 多 ， 例 如 ， 无 法 使 用 组 合 主键 ， 无 法 使 用 


timestamp 属性 (版 本 ) 


测试 和 生产 环境 的 服务 器 上 部 署 的 都 是 Linux 操 作 系统 ， 基 于 Linux 系 统 在 业内 的 普 楚 地 位 ，Hadoop 的 开发 一 开始 便 是 基于 Linux 系 统 展开 的 ， 所 以 其 对 于 Linux 系 统 有 着 非常 


H 


Hive 整 合 HBase (下 面 简称 整合 ) 的 依赖 环境 是 Hadoop 集 群 和 HBase 集 群 ， 由 于 本 章 主要 内 容 是 介绍 整合 过 程 ， 这 里 不 对 Hadoop 集 群 和 HBase 集 群 的 安装 部 署 作 详细 介绍 ，HBase 集 群 的 搭建 在 第 5 


整合 的 依赖 环境 如 


操作 系统 : Linux (CentOS, Ubuntu, RedHat 等 ) 


JDK: 1.6 及 以 上 
Hive: 0.11.0 
Hadoop: 1.2.1 
HBase: 0.94.18 
ZooKeeper: 3.4.5 


对 于 Hive 和 HBase 版 本 ， 经 过 很 多 测试 得 出 结论 ， 两 者 版 本 相关 性 很 强 ， 如 果 版 本 不 一 致 ， 会 导致 很 多 莫名 其 妙 的 异常 出 现 。 最 终 测试 可 以 使 用 的 版 本 匹配 如 下 : 


* Hive 0.9.0/Hive 0.10.0 vs.HBase 0.92.0 


* Hive 0.11.0 vs.HBase 0.94.18 


可 见 ， 如 果 使 用 HBase 0.92.*， 可 直接 选择 Hive 0.9.0 或 者 Hive 0.10.0; 如 果 使 用 HBase 0.94.18， 可 直接 使 用 Hive 0.11.0; 如 果 使 用 [0.94.0-0.94.18) 之 间 的 版 本 ， 建 议 重新 编译 Hive， 在 这 里 强调 一 
点 ，HBase 0.94.0 这 个 版 本 有 bug， 无 法 成 功 整合 Hive， 如 果 正 在 使 用 这 个 版 本 ， 很 遗憾 ， 只 有 升级 HBase 版 本 才能 整合 成 功 Hive 和 HBase。 


当然 ， 这 里 的 版 本 是 Apache 官 方 发 布 的 稳定 原生 版 本 ， 经 过 重新 编译 ，Hive 0.10.0 也 可 以 和 HBase 0.94.18 整 合 ， 鉴 于 写 这 本 书 时 HBase 的 最 新 稳定 版 本 是 0.94.18， 所 以 只 测试 到 该 版 本 。 如 果 没 有 特 
别 说 明 ， 本 节 的 所 有 操作 都 基于 Hive 0.11.0 和 HBase 0.94.18。 


Qs 对 于 Hadoop 版 本 ， 推 荐 使 用 1.*， 编 写本 章 时 Hadoop 最 新 稳定 版 本 是 1.2.1， 但 官网 同时 提供 多 个 1.* 版 本 的 下 载 ， 推 荐 读者 使 用 最 新 稳定 版 本 。 


6.2.3 Linux 环 境 下 重新 编译 Hive 


对 于 所 采用 的 Hive 和 HBase 版 本 不 符合 6.2.2 节 的 两 类 组 合 的 读者 ， 或 者 对 Linux 环 境 下 重新 编译 Hive 感 兴趣 的 读者 ， 可 继续 阅读 本 节 。 其 他 读者 可 以 直接 阅读 6.2.4 节 。 


本 节 将 具体 描述 如 何 修改 Hive 库 中 的 HBase 版 本 ， 且 重新 编译 打包 。 这 里 以 整合 Hive 0.10.0 和 HBase 0.94.18 为 例 。 


1. 安 装 Apache Ant 


在 项 目 中 每 次 重新 编译 、 打 包 、 测 试 等 都 是 非常 复杂 且 重 复 的 过 程 ， 因 此 人 语言 中 有 make 脚 本 来 帮助 这 些 工 作 的 批量 完成 。 在 Java 中 应 用 是 平台 无 关 性 的 ， 不 会 用 平台 相关 的 make 脚 本 来 完成 这 些 批 
处 理 任务 ，Ant 就 是 一 个 针对 Java 平 台 的 流程 脚本 引擎 。 


Apache Ant 是 将 软件 编译 、 测 试 、 部 署 等 步骤 联系 在 一 起 加 以 自动 化 的 一 个 工具 ， 经 常用 于 Java 环 境 中 的 软件 开发 ， 由 Apache 基 金 会 提供 。 在 默认 情况 下 ， 它 的 buildfile 是 XML 文 件 ， 名 为 
build.xml。 每 一 个 buildfile 含 有 一 个 <project> 和 至 少 一 个 默认 的 <target> ， 这 些 targets 包 含 许多 task elements。 每 一 个 task element 有 一 个 用 于 参考 的 id， 此 id 必 须 是 唯一 的 。 


Ant 的 安装 只 需要 下 载 并 解压 缩 ， 然 后 配置 环境 变量 即 可 。 下 面 介 绍 具体 的 步骤 。 


1) 下 载 。 


wget http://mirror.bjtu.edu.cn/apache//ant/binaries/apache-ant-1.9.1-bin.zip 


2) 解压 缩 。 


unzip apache-ant-1.9.1-bin.zip 
mv apache-ant-1.9.1 /opt/modules 
mv /opt/modules/apache-ant-1.9.1 /opt/modules/ant 


3) 配置 环境 变量 。 对 于 GNU/Linux， 在 下 面 的 配置 加 入 /etc/profile: 


export ANT HOME-/opt/modules/ant 
export JAVA HOME-/usr/java/default 
export PATH-SPATH: SJAVA HOME/bin: SANT HOME/bin 


注意 ， 到 这 一 步 还 没有 完成 ， 最 后 执行 Source/etc/profile。 


4) 验证 安装 。 如 果 在 Terminal (终端 上 执行 ant-version 会 看 到 类 似 下 面 的 输出 信息 ， 则 证 明 安 装 成 功 。 


Apache Ant (TM) version 1.9.1 compiled on May 22 2013 


2. 修 改 配置 


1) 下 载 Hive 和 HBase。 


wget http://mirror.bjtu.edu.cn/apache/hive/hive-0.10.0/hive-0.10.0.tar.gz 
wget http://mirror.bit.edu.cn/apache/hbase/hbase-0.94.18/hbase-0.94.18.tar.gz 


2) 解压 缩 。 


tar -zxvf hive-0.10.0.tar.gz 


3) 修改 配置 。 


cd hive-0.10.0 
cd src/ivy 


编辑 文件 vi libraries.properties， 将 文件 原来 的 hbase.version=0.92.0 蔡 换 为 : 


hbase.version=0.94.18 


3. 依 赖 库 

1) 删除 旧版 本 的 HBase 依 赖 包 。 删 除 hive-0.10.0/lib 下 的 两 个 依赖 包 : 

* hbase-0.92.0.jar 

base-0.92.0-tests.jar 

2) 添加 新 版 本 HBase 依 赖 。 将 hbase-0.94.18/lib 下 相关 依赖 包 复制 到 hive-0.10.0/lib 下 : 


base-0.94.18.jar 


base-0.94.18-tests.jar 


rotobuf-java-2.4.0a.jar 


* guava-r09.jar 


4.Ant 编 译 


进入 目录 hive-0.10.0/src， 顺 序 执行 下 面 的 Ant 命 令 : 


ant clean 
ant 


如 果 从 最 终 编译 结果 中 看 到 类 似 下 面 的 信息 ， 证 明 编译 打包 成 功 。 


ivy-init-dirs: 
echo] Project: hive 


mkdir] Created dir:  /root/download/hadoop hbase hive/hive-0.10.0/src/build/ivy 

mkdir] Created dir:  /root/download/hadoop hbase hive/hive-0.10.0/src/build/ivy/lib 
mkdir] Created dir: /root/download/hadoop hbase hive/hive-0.10.0/src/build/ivy/report 
mkdir] Created dir: /root/download/hadoop hbase hive/hive-0.10.0/src/build/ivy/maven 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 

http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 

init: 

echo] Project: builtins 

setup: 

echo] Project: builtins 

ivy-init-settings: 

echo] Project: builtins 

ivy-resolve: 

echo] Project: builtins 

[ivy: resolve] : : loading settings : : file = /root/download/hadoop hbase hive/ 
hive-0.10.0/src/ivy/ivysettings.xml 

[ivy: report] Processing /root/download/hadoop hbase hive/hive-0.10.0/src/build/ 
ivy/resolution-cache/org.apache.hive-hive-builtins-default.xml to /root/ 
download/hadoop hbase hive/hive-0.10.0/src/build/ivy/report/org.apache.hive- 
hive-builtins-default.html 

ivy-retrieve: 
[echo] Project: builtins 

jar: 
[echo] Project: builtins 

BUILD SUCCESSFUL 

Total time: 2 minutes 15 seconds 


5 .部署 依 赖 


进入 目录 hive-0.10.0/src/build/hbase-handler， 执 行 下 面 的 命令 : 


cp hive-hbase-handler-0.10.0-SNAPSHOT.jar hive-hbase-handler-0.10.0.jar 
cp hive-hbase-handler-0.10.0.jar http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/../http: / /www.hzcourse.com/resource/res 


至 此 ，Ant 重 新 编译 Hive 0.10.0 和 HBase 0.94.18 已 经 完成 。 


6.2.4 ”Hive 参 数 配 置 


本 节 将 详细 讲解 如 何 配置 Hive 中 与 整合 HBase 相 关 的 参数 及 其 含义 ， 并 通过 代码 示例 的 方式 来 方便 读者 理解 。 


1. 下 载 并 解压 缩 


从 Apache 官 方 提供 的 镜像 下 载 Hive 压 缩 包 ， 然 后 使 用 tar 命 令 解 压缩 ， 下 面 是 执行 命令 示例 : 


wget http://mirror.bjtu.edu.cn/apache/hive/hive-0.11.0/hive-0.11.0.tar.gz 
tar -zxvf hive-0.11.0.tar.gz 


2. Bi &hive-site.xml 
进入 解压 缩 后 的 hive-0.11.0/conf 目 录 ， 创 建文 件 hive-site.xml， 该 文件 是 Hive 启 动 时 的 配置 文件 ， 可 以 进行 相关 参数 的 配置 ， 和 整合 HBase 相 关 的 参数 有 4 个 ， 如 表 6-5 所 示 。 


表 6-5 ”整合 HBase 相 关 的 参数 


参数 名 称 功能 描述 


hive.aux.jars.path 执行 辅助 依赖 库 路 径 ， 必 须 是 本 地 路 径 ， 以 file:// 开头 
hbase.zookeeper.quorum ZooKeeper 队列 名 称 
hbase.master HBase Master 的 IP 或 者 Hostname 和 端口 


hbase.zookeeper.property.clientPort ZooKeeper Yii HO 


下 面 是 一 个 配置 代码 示例 : 


<? xml version="1.0"? > 

<? xml-stylesheet type-"text/xsl" href-"configuration.xsl"? > 

«configuration» 

<! -- Hive Execution Parameters --> 

«property» 

«name»hive.aux.jars.path«/name» 

«value»file: ///opt/modules/hive/hive-0.11.0/1lib/hive-hbase-handler-0.11.0.jar, 
file: ///opt/modules/hive/hive-0.11.0/1ib/hbase-0.94.18.jar, file: ///opt/modules/ 
hive/hive-0.11.0/1ib/zookeeper-3.4.5.jar, file: ///opt/modules/hive/hive-0.11.0/ 
lib/protobuf-java-2.4.1.jar«/value» 

«/property» 

«property» 

«name»hbase.zookeeper.quorum«/name» 
«value»zkl, zkl, zk3«/value» 
«/property» 
<property> 
«name»hbase .master</name> 
<value>hbasemaster: 60000</value> 
</property> 
<property> 
«name»hbase.zookeeper.property.clientPort«/name» 
«value»2181«/value» 

«/property» 

«/configuration» 


在 上 面 代 码 中 ，hive.aux.jars.path 项 中 的 若干 JAR 包 路 径 已 经 在 hive-0.11.0/lib 中 ， 直 接 将 路 径 写 入 即 可 ， 不 需要 变动 (实例 中 JAR 包 版 本 和 hive-0.11.0/lib 中 的 一 致 〉。 


3. 配 置 hive-env.sh 


进入 hive-0.11.0/conf 目 录 ， 创 建文 件 hive-env.sh (Hive 运 行 时 的 环境 变量 配置 文件 ) ， 然 后 将 下 面 的 代码 添加 到 文件 中 (根据 实际 的 Hadoop 和 HBase 安 装 路 径 ) 。 


export HADOOP HOME=/opt/modules/hadoop/hadoop-1.2.1 
export HBASE HOME=/opt/modules/hbase/hbase-0.94.18 


6.2.5 ”启动 Hive 


配置 完成 后 ，Hive 的 启动 过 程 和 常规 情况 没有 差别 ， 首 先 修改 Hive 主 目录 的 所 属 用 户 为 hadoop : 


chrown -R hadoop: hadoop hive-0.11.0 


然后 ， 切 换 到 hadoop 用 户 ， 启 动 Hive: 


su hadoop 
bin/hive 


如 果 出 现 类 似 下 面 的 输出 信息 ， 证 明 启动 成 功 : 


Logging initialized using configuration in jar: file: /opt/modules/hive/hive-0.11.0/ 
lib/hive-common-0.11.0.jar! /hive-10g4j.properties 

Hive history file-/tmp/hadoop/hive job log root 235798hbasemaster 201306111642 1210151034.txt 

hive» 


6.26 ”Hive 与 HBase 整 合 后 的 框架 如 何 使 用 


本 小 节 将 通过 具体 示例 介绍 如 何 使 用 Hive 与 HBase 整 合 后 的 框架 ， 具 体 将 分 为 5 个 步骤 进行 ， 包 含 准备 测试 数据 、 创 建 内 部 表 、 加 载 数据 、 执 行 查询 和 创建 外 部 表 等 。 


1. 准 备 测试 数据 
(1) 测试 数据 文件 


创建 测试 文件 lecture-10.csv， 内 容 如 下 : 


Xiaoming 90 
Zhaojun 100 
Lili 80 

Zhouzi 76 
Qimin 75 
Songjiang 50 
Zhangsan 60 
Zhaokuang 68 
Zhangziming 90 
Ouyangchun 100 
Huanghun 80 
Liulijun 90 
Wangzili 45 
Xiaojunli 100 
Wangziliang 85 
Masanli 92 
Zhangside 100 
Hubayi 94 
Pangzi 82 
Yangshubing 100 


该 文件 是 某 研究 生 班 部 分 学 生 的 分 布 式 系统 课程 的 期 未 考试 成 绩 。 第 一 列 是 学 生 名 字 ， 第 二 列 是 考试 成 绩 ， 考 试 使 


(2) 加 载 HDFS 


在 Hadoop 主 目录 下 执行 下 面 命令 : 


百分制 ， 满 分 100 分 ，60 分 及 格 。 列 之 间 使 


NOT. 


su hadoop 

hadoop fs -mkdir /hive-hbase 

hadoop fs -mkdir /hive-hbase/lecture 

hadoop fs -put /home/hadoop/lecture-10.csv /hive-hbase/lecture/ 


(3) 创建 Hive 表 


进入 Hive Shell 客 户 端 创建 库 lecture， 命 令 如 下 : 


create database lecture: 


(4) 创建 外 部 表 


进入 Hive Shell 客 户 端 ， 创 建 外 部 表 ， 建 表 命令 如 下 : 


create external table IF NOT EXISTS lecture.lecture10 (sname string, score int) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY 'Nt' STORED AS TEXTFILE LOCATION 
' /hive-hbase/lecture'; 


(5) 查看 表 数 据 


select * from lecture.lecturelO; 


下 面 是 查询 语句 的 执行 结果 ， 可 以 看 到 Hive 表 中 的 数据 和 HDFS 上 的 数据 一 致 。 


hive» select * from lecture.lecturel0; 


OK 

Xiaoming 90 
Zhaojun 100 
Lili 80 

Zhouzi 76 
Qimin 75 
Songjiang 50 
Zhangsan 60 
Zhaokuang 68 
Zhangziming 90 
Ouyangchun 100 
Huanghun 80 
Liulijun 90 
Wangzili 45 
Xiaojunli 100 
Wangziliang 85 
Masanli 92 
Zhangside 100 
Hubayi 94 
Pangzi 82 
Yangshubing 100 


Time taken: 0.576 seconds 


2. 创 建 内 部 表 


内 部 表 的 建 表 语 句 如 下 : 


CREATE TABLE lecture.hbase lecturel0 (sname string, score int) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 

WITH SERDEPROPERTIES ("hbase.columns.mapping" = ": key, cfl: score") 
TBLPROPERTIES ("hbase.table.name" = "hbase lecturel0") ; 


(1) 查看 Hive 中 所 创建 的 表 


进入 Hive Shell 客 户 端 执行 查看 表 命令 : 


use lecture; 
show tables: 


如 果 看 到 如 下 输出 信息 ， 表 示 hbase_lecture10 创 建成 功 。 


OK 

hbase_lecture10 

lecture10 

Time taken: 0.077 seconds 


(2) 查看 HBase 中 所 创建 的 表 


进入 HBase shell 客户 端 执 行 查看 表 命令 : 


list 


如 果 出 现 如 下 输出 信息 ， 表 示 hbase_lecture10 创 建成 功 。 


hbase (main) : 001: 0» list 
TABLE 

hbase lecturel10 

1 row(s) in 1.2570 seconds 


下 面 介绍 创建 内 部 表 语 句 中 各 个 部 分 的 含义 ， 如 表 6-6 所 示 。 


表 6-6 ， 建 表 语句 每 部 分 的 含义 


建 表 语 句 模 块 功能 描述 


CREATE TABLE 建 表 语 句 声明 
lecture.hbase_lecture10 所 创建 的 Hive 表 名 字 
(sname string, score int) 所 创建 的 Hive KF 
STORED BY 


指定 使 用 Hive Storage Handlers 
'g.apache.hadoop.hive.hbase.HBaseStorageHandler' " H 


属性 ， 这 里 指定 HBase A fll Hive 的 字段 映射 关系 
里 的 字段 个 数 和 顺序 必须 和 前 面 Hive 表 的 属性 保持 
第 一 个 字段 key 映射 到 Hive 中 的 sname 字段 ， 后 
面 字 段 依次 类 推 

指定 HBase 表 属 性 ， 这 里 指定 HBase 表 名 。 该 字段 可 以 
省 略 不 写 ， 此 时 ，HBase 中 表明 使 用 Hive 的 [ 库 名 ] 表 名 
的 格式 ， 例 如 lecture.hbase test3 


WITH SERDEPROPERTIES 


( "hbase.columns.mapping" = ":key. cfl:score") 


TBLPROPERTIES 


( "hbase.table.name" = "hbase lecture10" ) 


3. 加 载 数据 


创建 完 内 部 表 ， 可 以 通过 Hive 支 持 的 INSERT OVERWRITE 方 式 将 一 个 表 的 数据 导入 HBase。 下 面 是 对 应 的 执行 语句 : 


INSERT OVERWRITE TABLE lecture.hbase lecturel0 SELECT sname, score FROM lecture.lecture10; 


在 执行 的 过 程 中 ， 该 语句 被 Hive 内 部 Driver 解 析 为 MapReduce 并 行 加 载 数据 。 详 细 执行 过 程 可 以 参考 下 面 的 日 志 信 息 。 


hive» INSERT OVERWRITE TABLE lecture.hbase lecturel0 SELECT sname, score FROM 

lecture.lecturelO; 
Total MapReduce jobs = 1 
Launching Job 1 out of 1 
Number of reduce tasks is set to 0 since there's no reduce operator 
Starting Job = job 201305301916 90993, Tracking URL = http://hadoopmaster: 50030/ 

jobdetails.jspjobid-job 201305301916 90993 
Kill Command - /usr/libexec/http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/../bin/hadoop job -kill job 201305301916 9C 
Hadoop job information for Stage-0: rd of mappers: 1; number of reducers: 0 e E B 
2013-06-11 17: 37: 33, 590 Stage-0 map - 0$, reduce - 0$ 
2013-06-11 17: 37: 51, 970 Stage-0 map = 100%, reduce 
2013-06-11 17: 37: 52, 983 Stage-0 map = 100%, reduce 
2013-06-11 17: 37: 53, 991 Stage-0 map = 100%, reduce 
2013-06-11 17: 37: 55, 003 Stage-0 map - 100$. reduce 
2013-06-11 17: 37: 56, 015 Stage-0 map - 100$. reduce 
2013-06-11 17: 37: 57, 024 Stage-0 map = 100%, reduce 
2013-06-11 17: 37: 58, 032 Stage-0 map - 100$, reduce - 
MapReduce Total cumulative CPU time: seconds 490 msec 
Ended Job = job 201305301916 90993 
20 Rows loaded to hbase lecturelO 
MapReduce Jobs Launched: 
Job 0: Map: 1 Cumulative CPU: 2.49 sec HDFS Read: 457 HDFS Write: 0 SUCCESS 
Total MapReduce CPU Time Spent: 2 seconds 490 msec 
OK 
Time taken: 39.775 seconds 


0$, Cumulative CPU 2.49 sec 
0$, Cumulative CPU 2.49 sec 
% Cumulative CPU 2.49 sec 
$, Cumulative CPU 2.49 sec 
0$, Cumulative CPU 2.49 sec 
0$, Cumulative CPU 2.49 sec 
100%, Cumulative CPU 2.49 sec 
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从 上 面 的 日 志 信息 可 以 看 到 ， 整 个 语句 被 解析 成 1 个 MapReduce 任 务 ， 该 任务 只 有 一 个 Map， 没 有 Reduce 操 作 。 整 个 任务 共 花 费 39.775s， 对 于 这 样 一 个 小 样本 来 讲 这 个 时 间 已 经 足够 长 了 。 


4 执行 查询 


加 载 完 数据 后 ， 需 要 验证 一 下 加 载 结果 是 否 存在 问题 ， 这 里 仪 验证 加 载 数据 的 总 行 数 是 否 一 致 。 


select count (*) from lecture.hbase lecturel0; 


从 下 面 的 日 志 可 以 发 现 ， 整 个 HiveQL 被 解析 为 一 个 MapReduce 任 务 、1 个 Map、1 个 Reduce， 总 任务 耗 时 41.296s。 


hive> select count (*) from lecture.hbase lecturel0; 
Total MapReduce jobs = 1 El 
Launching Job 1 out of 1 
Number of reduce tasks determined at compile time: 1 
In order to change the average load for a reducer (in bytes): 

set hive.exec.reducers.bytes.per.reducer-«number» 
In order to limit the maximum number of reducers: 

set hive.exec.reducers.max-«number» 
In order to set a constant number of reducers: 

set mapred.reduce.tasks-«number^ 
Starting Job = job 201305301916 91001, Tracking URL = http://hadoopmaster: 50030/ 

jobdetails.jspjobid-job 201305301916 91001 

Kill Command = /usr/libexec/http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/../bin/hadoop job -kill job 201305301916 91 
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1 
2013-06-11 17: 39: 49, 142 Stage-1 map = 0%, reduce = 


2013-06-11 17: 39: 55, 179 Stage-1 map = 100%, reduce % Cumulative CPU 2.91 sec 
2013-06-11 17: 39: 56, 187 Stage-1 map = 100%, reduce % Cumulative CPU 2.91 sec 
2013-06-11 17: 39: 57, 196 Stage-1 map = 100%, reduce $, Cumulative CPU 2.91 sec 
2013-06-11 17: 39: 58, 204 Stage-1 map = 100%, reduce $, Cumulative CPU 2.91 sec 
2013-06-11 17: 39: 59, 212 Stage-1 map = 100%, reduce - 0$, Cumulative CPU 2.91 sec 
2013-06-11 17: 40: 00, 220 Stage-1 map = 100%, reduce % Cumulative CPU 2.91 sec 
2013-06-11 17: 40: 01, 228 Stage-1 map = 100%, reduce $, Cumulative CPU 2.91 sec 
2013-06-11 17: 40: 02, 235 Stage-1 map = 100%, reduce % Cumulative CPU 2.91 sec 
2013-06-11 17: 40: 03, 243 Stage-1 map = 100%, reduce % Cumulative CPU 2.91 sec 
2013-06-11 17: 40: 04, 251 Stage-1 map = 100%, reduce $, Cumulative CPU 2.91 sec 
2013-06-11 17: 40: 05, 259 Stage-1 map = 100%, reduce $, Cumulative CPU 2.91 sec 
2013-06-11 17: 40: 06, 267 Stage-1 map = 100%, reduce % Cumulative CPU 2.91 sec 
2013-06-11 17: 40: 07, 275 Stage-1 map = 100%, reduce 100$, Cumulative CPU 6.51 sec 


2013-06-11 17: 40: 08, 283 Stage-1 map 
2013-06-11 17: 40: 09, 291 Stage-1 map 
2013-06-11 17: 40: 10, 299 Stage-1 map 


1005, reduce 
100%, reduce 
1003, reduce 


100%, Cumulative CPU 6 

100%, Cumulative CPU 6 

100%, Cumulative CPU 6. 

100%, Cumulative CPU 6.51 sec 
6 
6 


2013-06-11 17: 40: 11, 308 Stage-1 map = 100%, reduce = 
2013-06-11 17: 40: 12, 315 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 6.51 sec 
2013-06-11 17: 40: 13, 323 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 6.51 sec 
MapReduce Total cumulative CPU time: 6 seconds 510 msec 


Ended Job = job 201305301916 91001 
MapReduce Jobs Launched: 


Job 0: Map: 1 Reduce: 1 Cumulative CPU: 6.51 sec HDFS Read: 276 HDFS Write: 3 SUCCESS 
Total MapReduce CPU Time Spent: (6 seconds 510 msec 
OK 


20 
Time taken: 41.296 seconds 


5. 创 建 外 部 表 


创建 外 部 表 适 用 于 某 表 HBase 已 经 存在 ， 但 在 Hive 中 没有 相关 信息 。 此 时 ， 可 以 通过 创建 外 部 表 的 方式 ， 为 HBase 现 有 表 提 供 SQL 查询 条 件 。 而 内 部 表 适 用 于 Hive 和 HBase 都 没有 相关 表 的 情况 。 


(1) 创建 HBase 表 


进入 HBase Shell 客 户 端 执行 建 表 命 令 : 


create 'hbase test', { NAME => 'cfl' } 


如 果 出 现下 列 输出 信息 ， 表 示 hbase_test 创 建成 功 。 


hbase (main) : 002: 0» create 'hbase test', { NAME => 'cf1' } 
0 row (s) in 1.1720 second 


(2) 插入 数据 


执行 插入 数据 命令 ， 共 插入 三 条 数据 : 


put 'hbase test', ''a', 'cfl: vl', “1' 

put 'hbase test', ''b', 'cfl: vl', “2' 

put 'hbase test', 'c', 'cfl: vl', '3' 
(3) 查看 数据 

执行 扫描 表 操作 : 


hbase (main) : 007: 0> scan 'hbase test' 

ROW COLUMN4CELL 

a column-cfl: vl, timestamp-1370944689194, value-l 
b column-cfl: vl, timestamp-1370944696095, value=2 
c column-cfl: vl, timestamp-1370944703884, value-3 
3 row (s) in 0.0830 seconds 


(4) 创建 Hive 外 部 表 


进入 Hive Shell 客 户 端 ， 创 建 外 部 表 lecture.hbase_test， 建 表 命令 如 下 : 


CREATE EXTERNAL TABLE lecture.hbase test (key string, value int) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 

WITH SERDEPROPERTIES ("hbase.columns.mapping" = ": key, cfl: v1") 
TBLPROPERTIES ("hbase.table.name" = "hbase test") ; 


Qez 创建 外 部 表 和 创建 内 部 表 在 语句 上 唯一 的 区 别 是 创建 声明 部 分 ， 创 建 内 部 表 使 用 CREATE TABLE, ， 而 创建 外 部 表 使 用 CREATE EXTERNAL TABLE. 
(5) Hive 查 看 数据 


Hive 的 查询 命令 与 标准 SQL 类 似 ， 这 里 不 再 详 述 ,命令 如 下 : 


hive» select * from lecture.hbase test; 
OK 

al 

b2 

9-3 

Time taken: (0.204 seconds 


通过 创建 外 部 表 可 以 成 功 地 从 Hive 查 询 HBase 表 的 数据 。 


6.2/7 ”HBase 到 Hive 的 字段 映射 


在 建 表 语句 中 ， 对 于 HBase 到 Hive 的 字段 映射 ， 存 在 两 个 SERDEPROPERTIES 属 性 ， 如 表 6-7 所 示 。 


表 6-7 ”字段 映射 属性 
映射 属性 功能 描述 
字段 映射 属性 。 到 目前 为 止 ， 一 个 Hive 表 可 以 包含 N 个 字段 ,该 属性 也 需 
要 包含 N 个 声明 
hbase.table.default.storage.type 可 以 是 任意 的 string (默认 ) 或 者 二 进 制 类 型 。 该 选项 只 在 Hive 0.9.* 有 效 


Hbase.columns.mapping 


目前 Hive 支 持 的 字段 映射 还 有 些 生硬 ， 限 制 性 比较 大 。 期 待 Hive 后 续 版 本 会 做 出 一 些 改进 。 对 于 每 个 Hive 字 段 ， 在 建 表 的 时 候 必须 特别 指定 一 个 对 应 的 字段 声明 ， 并 用 逗号 分 隔 。 在 
hbase.columns.mapping 中 ， 声 明 中 不 能 包含 空格 。 


字段 映射 声明 可 以 是 以 下 两 种 方式 ， 其 中 特殊 的 类 型 指定 是 从 Hive 0.9.0 开 始 加 入 的 ， 之 前 的 版 本 只 支持 String 类 型 。 
… :key 
* column-family-name:[column-name]|£. (binary | string) 


字段 映射 声明 有 如 下 特性 : 


“ 如 果 没 有 指定 类 型 ， 则 会 使 用 hbase.table.default.storage.type 的 值 ; 
“ 允许 使 用 属性 前 组 ， 例 如 #b 代 替 #binary; 


. 如 果 指 定 使 用 binaty 类 型 ，HBase 内 部 使 用 Bytes 类 具体 实现 该 类 型 的 格式 。 


有 上 且 仅 有 一 个 :key 映 射 字段 ， 目 前 不 支持 组 合 主键 。 在 Hive 0.6 的 HIVE-1228 问 题 之 前 ，Hive 并 不 支持 :key 字 段 ， 只 是 隐 式 指定 Hive 第 一 个 字段 为 主键 ;现在 ， 推 荐 使 用 显 式 指定 主键 ， 将 来 会 去 掉 隐 式 


指定 。 


如 果 没 有 给 定 字段 名 ，Hive 字 段 会 映射 到 HBase 列 族 中 的 所 有 字段 ; 必须 使 


现在 无 法 访问 


u 


没有 必要 引用 所 有 HBase 的 列 族 ， 那 些 没有 映射 的 列 族 将 不 能 通过 Hive 表 访问 


6.28 ”多 列 与 Hive Map 类 型 


Hive Map 类 型 访问 数据 。 


HBase 中 的 timestamp 属 性 ， 每 次 查询 结果 都 返回 最 近 的 timestamp。 


因为 HBase 并 不 支持 每 个 字段 关联 数据 类 型 ， 而 在 存储 前 ， 使 用 serde 将 所 有 数据 转化 为 字符 串 ; 但是， 目前 无 法 在 每 个 字段 上 使 用 定制 化 的 serde。 


; 人 允许 将 同一 个 HBase 表 映射 到 多 个 Hive 表 。 


本 小 节 将 介绍 整合 Hive 和 HBase 如 何 创建 多 列 映射 ， 以 及 如 何 使 用 Hive Map 这 种 数据 类 型 ， 通 过 具体 操作 示例 ， 分 别 从 建 表 、 插 入 数据 和 查询 等 方面 逐步 讲解 。 


1. 多 列 


整合 Hive 和 HBase 不 仅 可 以 创建 单列 映射 ， 还 可 以 多 列 和 多 列 族 映 射 。 这 里 的 例子 使 用 Hive 中 的 三 个 字段 : value1、value2 和 value3， 分 别 对 应 HBase 的 列 cf1:col1、cf1:col2，cf2:col3， 其 中 包含 cf1 


和 cf2 两 个 列 族 。 下 面 是 创建 多 列 映射 的 建 表 和 查询 过 程 。 


(1) 建 表 


在 HBase Shell 客 户 端 中 ， 通 过 下 面 的 语句 创建 包含 多 列 族 和 多 列 的 表 : 


CREATE TABLE hbase test2 

(key string, valuel string, value2 string, value3 string) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler"' 
WITH SERDEPROPERTIES 


("hbase.columns.mapping" = ": key, cfl: coll, cfl: col2, cf2: col3") 


TBLPROPERTIES ("hbase.table.name" = "hbase test2") ; 


(2) 查看 HBase 表 结构 


在 HBase Shell 客 户 端 中 ， 使 用 describe 命 令 查看 创建 后 的 表 结 构 ， 结 果 如 下 : 


hbase (main) : 023: 0> describe 'hbase test2'DESCRIPTION ENABLED 
(NAME => 'hbase test2', FAMILIES => [(NAME => 'cf1', 

DATA BLOCK ENCODING => 'NONE', BLOOMFILTER => 'NONE', 

REPLICATION SCOPE => '0', VERSIONS => '3', COMPRESSION => 'NONE', 


MIN VERSIONS => '0', TTL => '2147483647', KEEP DELETED CELLS => 'false'. 
BLOCKSIZE => '65536', IN MEMORY => 'false', ENCODE ON DISK => 'true', 
BLOCKCACHE => 'true'}, {NAME => 'cf2', DATA BLOCK ENCODING => 'NONE', 


BLOOMFILTER => 'NONE', REPLICATION SCOPE => '0', VERSIONS => '3', 
COMPRESSION => 'NONE', MIN VERSIONS => '0', TTL => '2147483647', 
KEEP DELETED CELLS => 'false', BLOCKSIZE => '65536', IN MEMORY => ' 
ENCODE ON DISK => 'true', BLOCKCACHE => 'true'}]} B 

1 row (s) in 0.3310 seconds 


false', 


(3) 插入 数据 


使 用 HBase shell client 插 入 测试 数据 ， 插 入 的 命令 和 相关 的 数据 如 下 : 


put 'hbase test2', 'rkl', 'cfl: coll', '100' 
put 'hbase test2', 'rkl', 'cfl: col2', '101' 
put 'hbase test2', 'rkl', 'cf2: col3', '102' 
put 'hbase test2', 'rk2', 'cfl: coll', '100' 
put 'hbase test2', 'rk2', 'cfl: col2', '101' 
put 'hbase test2', 'rk2', 'cf2: col3', '102' 


(4) 扫描 表 查 看 数据 


在 HBase Shell 客 户 端 中 ， 使 用 scan 命 令 进行 全 表 扫 描 ， 执 行 命令 和 结果 如 下 : 


hbase (main) : 024: 0» scan 'hbase test2' 


ROW COLUMN4CELL 
rkl column=cf1: coll, timestamp=1371105221847, value=100 
rkl column-c timestamp-1371105221894, value-101 
rkl column=c: timestamp-1371105221914, value-102 
rk2 column-c timestamp-1371105221935, value-100 


rk2 column-cf1: timestamp-1371105221960, value-101 
rk2 column-cf2: col3, timestamp-1371105222901, value-102 
2 row (s) in 0.0270 seconds 


(5) 回 到 Hive 查 询 数据 


回 到 Hive 中 ， 使 用 SQL 语 句 查询 插入 的 数据 ， 执 行 命令 和 结果 如 下 : 


hive> select * from hbase test2; 
OK 

rkl 100 101 102 

rk2 100 101 102 

Time taken: 0.19 seconds 


2.Hive Map 


Hive Map 可 以 用 于 访问 整个 列 族 ， 而 不 用 显 式 地 指定 列 名 。 该 用 法 的 作用 显而易见 ， 很 多 时 候 并 不 清楚 或 者 并 不 希望 花 时 间 再 去 查看 表 结构 ， 如 果 可 以 直接 通过 语句 的 自 适 应 自动 查询 再 好 不 过 ，Hive 


Map 就 是 为 这 一 目的 而 设计 实现 的 。 


(1) 通过 Hive 建 表 


通过 Hive 命 令 行 客户 端 ， 使 


Hive SQL 中 的 建 表 语 句 创建 表 hbase_test3， 建 表 语 句 如下: 


CREATE TABLE hbase test3 (row key string, 


value map«string, int») 


STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 


WITH SERDEPROPERTIES € 
"hbase.columns.mapping" = 


: key, 


gis "o. 


上 面 代码 中 的 value map<string，int> 参 数 就 是 Hive Map 的 代码 表现 形式 ， 它 是 表 hbase_test3 中 的 一 列 ， 并 不 需要 显 式 地 指定 列 名 。 从 参数 "hbase.columns.mapping "= ":key，cf:" 也 可 以 看 出 这 一 


(2) 插入 数据 


使 用 Hive 语 句 INSERT OVERWRITE， 将 6.2.6 节 的 准备 数 


居 批 量 插入 到 刚 创 建 的 Hive 表 中 。 


hive» INSERT OVERWRITE TABLE hbase test3 SELECT sname, 


lecture.lecturel0; 
Total MapReduce jobs = 1 
Launching Job 1 out of 1 


map (sname, score) 


Number of reduce tasks is set to 0 since there's no reduce operator 


Starting Job = job 201305301916 105247, 


Tracking URL = 


http://hadoopmaster: 50030/jobdetails.jspjobid-job 201305301916 105247 
Kill Command = /usr/libexec/http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/../bin/hadoop job -kill job 201305301916 1C 
1; number of reducers: 


Hadoop job information for Stage-0: 


2013-06-13 15: 06: 54, 168 
2013-06-13 15: 07: 16, 328 
2013-06-13 15: 07: 17, 335 
2013-06-13 15: 07: 18, 342 
2013-06-13 15: 07: 19, 350 
2013-06-13 15: 07: 20, 403 
2013-06-13 15: 07: 21, 462 
2013-06-13 15: 07: 22, 474 
MapReduce Total cumulative 


Stage-0 map = 0%, 
Stage-0 map - 100$, 
Stage-0 map = 100$, 
Stage-0 map = 100%, 
Stage-0 map - 100$, 
Stage-0 map - 100$, 
Stage-0 map = 100%, 
Stage-0 map = 100%, 
CPU time: 


Ended Job = job 201305301916 105247 
20 Rows loaded to hbase test3 


MapReduce Jobs Launched: 


Job 0: Map: 1 Cumulative CPU: 


Total MapReduce CPU Time Spent: 


OK 


Time taken: 61.603 seconds 


2.34 sec 


number of mappers: 


reduce 
reduce 
reduce 
reduce 
reduce 
reduce 
reduce 


HDFS Read: 
2 seconds 340 msec 


从 上 面 代码 的 执行 命令 中 可 以 知道 ， 


$, Cumulative 
$, Cumulative 
% Cumulative 
$, Cumulative 


= 0$, Cumulative 


% Cumulative 


457 HDFS Write: 


map () 方法 构造 该 类 型 。 其 中 ，sname 和 score 分 别 是 map () 类 型 的 Key 和 Value。 


INSERT OVERWRITE TABLE hbase test3 SELECT sname, 


CPU 
CPU 
CPU 
CPU 
CPU 
CPU 


FROM 


2.34 
2.34 
2.34 
2.34 
2.34 
2.34 


0 


sec 
sec 
sec 
sec 
sec 
sec 


= 100%, Cumulative CPU 2.34 sec 
seconds 340 msec 


0 SUCCESS 


map (sname, score) FROM lecture.lecturelO0; 


因为 建 表 的 时 候 表 hbase_test3 的 第 二 列 是 map<string，int> ， 所 以 在 插入 的 时 候 也 需要 对 应 该 类 型 ， 下 列 代码 中 使 用 map (sname, score) ， 即 Hive 中 的 


(3) Hive 查 看 插入 的 数据 


通过 Hive 命 令 行 客户 端 ， 使 F 


Hive SQL 中 的 查询 语句 ， 查 看 整个 表 hbase_test3 的 结果 ， 命 令 和 查询 结果 如 下 : 


hive> select * from hbase test3; 


OK 

Huanghun {"Huanghun": 80} 
Hubayi {"Hubayi": 94} 

Lili ("Lili": 80} 

Liulijun ("Liulijun": 90) 
Masanli [("Masanli": 92} 
Ouyangchun ("Ouyangchun": 100} 
Pangzi ("Pangzi 

Qimin ["Qimin": 75) 

Songjiang ["Songjiang": 50) 
Wangzili ("Wangzili": 45) 
Wangziliang ["Wangziliang": 85} 
Xiaojunli ("Xiaojunli": 100) 
Xiaoming ("Xiaoming": 90) 
Yangshubing ("Yangshubing": 100] 
Zhangsan ["Zhangsan": 60) 
Zhangside ("Zhangside 100) 
Zhangziming ("Zhangziming": 90) 
Zhaojun ("Zhaojun": 100) 
Zhaokuang ["Zhaokuang": 68) 
Zhouzi ("Zhouzi": 76) 


Time taken: (0.128 seconds 


(4) Map key 类 型 。 


Hive Map 中 key 的 数据 类 型 可 是 string 或 者 int， 用 于 命名 HBase 中 的 列 名 ， 所 以 下 


面 的 建 表 语句 也 是 可 以 的 : 


CREATE TABLE hbase table 1 (key int, 


value map<int, int») 


STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 


WITH SERDEPROPERTIES € 
"hbase.columns.mapping" = 
3i 


: key, 


[o 


但 是 ， 在 插入 数据 的 时 候 要 注意 类 型 之 间 的 


匹配 关系 ， 如 果 将 String 类 型 赋值 为 int 类 型 则 会 抛 出 异常 信息 。 


FAILED: SemanticException [Error 10044]: 
table because column number/types are different 'hbase table 1': 


convert column 1 from map<string, int» to map<int, int». 


Hive Map 的 使 用 并 不 十 分 / 


, X 


从 互联 网 行业 的 数据 类 型 角度 思考 该 问题 。 


果实 际 项 目 有 这 样 的 需求 ， 可 以 深入 学 习 和 调研 。 


6.3 查 多 引擎 Phoenix 


= 


细 介 绍 Phoenix 的 架构 、 实 现 、 使 


Cannot 


ue 
毕竟 ， 


Line 1: 23 Cannot insert into target 


该 行业 中 的 日 志 数 据 很 少 需要 Map 类 型 ， 基 本 都 是 简单 的 单 值 类 型 ， 所 以 读者 可 以 先 了 解 Hive Map 的 使 用 ， 如 


前 面 已 经 介绍 了 一 种 SQL 解决 方案 ， 本 节 将 介绍 另 一 种 方案 一 一 Phoenix， 它 是 由 Salesforce.com 的 james Taylor 为 
场景 、 安 装 部 署 以 及 如 何 使 


开发 的 Java 中 间 


层 ， 可 以 让 开发 者 在 HBase 上 执行 SQL 查询 。 接 下 来 的 内 容 将 详 


6.3.1 认识 Phoenix 


Phoenix 这 个 由 Salesforce.com 开 源 的 纯 Java 项 


GitHub (https://github 


据 项 目 了 


OpenTSDB 来 说 ， 进 行 相 


EF 要 的 开发 人 员 James Taylor 所 述 ，Phoenix 正 在 被 Sa 
于 MapReduce 任 务 ， 而 是 通过 标准 化 的 SQL 语言 访问 HBase 数 据 。 对 了 


， 是 构建 在 HBase 上 的 SQL 中 间 
.com/forcedotcom/phoenix) 上 开源 ， 并 提供 一 个 客户 端 可 嵌入 的 JDBC 驱 动 ， 为 | 


层 ， 开 始 基于 原生 的 Apache HBase， 之 后 的 版 本 支持 Cloudera 和 MapR 的 商业 发 行 版 。 该 项 目 已 经 在 
户 提供 增删 改 查 服务 。 


esforce.com 内 部 使 用 ， 对 于 简单 的 低 延 迟 查询 ， 其 量 级 为 毫秒 ;对 于 百 万 级 别 的 行 数 来 说 ， 其 量 级 为 秒 。Phoenix 并 不 是 像 HBase 那 样 
FF10 万 到 100 万 行 的 简单 查询 来 说 ， 速 度 上 Phoenix 要 胜 过 Hive。 对 于 使 用 了 HBase API、 协 处 理 器 及 自 定义 过 滤器 的 Impala 与 
体 可 以 参考 GitHub 的 性 能 评估 页 面 https://github.com/forcedotcom/phoenix/wiki/Performance， 这 上 面 有 非常 详细 的 介绍 。 


似 的 查询 Phoenix 的 速度 也 会 更 快 一 些 。 


Phoenix 也 提供 了 性 能 测试 工 


Phoenix 查 询 引擎 会 将 SQL 查询 转换 为 一 个 或 多 个 HBase Scan， 并 行 执行 以 4 
需要 HBase 0.94.2 版 本 ， 对 老 版 本 的 HBase 并 不 兼容 ， 所 以 如 果 读 者 


1.Phoenix 的 特性 


HBase API、 协 处 理 器 与 自 定义 过 滤器 。2013 年 1 月 30 日 ，Phoenix 1.0 版 本 发 布 ， 最 低 


Phoenix。 


成 标准 的 JDBC 结 果 集 。 直 接 使 
HBase0.94.2 之 前 的 版 本 ， 现 阶段 还 无 法 使 


上 


F 
上 


Phoenix 最 值得 关注 的 特性 有 : 


- 嵌入 式 的 JDBC 驱 动 ， 实 现 了 大 部 分 的 java.sql 接 口 ， 包 括 元 数据 API; 


“ 可 以 通过 多 行 键 或 


“ 完善 的 查询 支持 ， 


键 / 值 单 元 对 列 进行 建 模 ; 


优化 过 Scan; 


- DDL 支 持 : 通过 CREATE TABLE, DROP TABLE AALTER TABLE 添 加 /删除 列 ; 


“ 版 本 化 的 模式 仓库 


: 当 写 入 数据 时 ， 快 照 查询 会 使 用 适当 的 模式 ; 


“ DML 支 持 : 用 于 逐 行 插入 的 UPSERT VALUES， 用 于 相同 或 不 同 表 之 间 大 量 数据 传输 的 UPSERT SELECT， 用 于 删除 行 的 DELETE; 


“ 通过 客户 端的 批 处 


理 实现 的 有 限 的 事务 支持 ; 


OE SRANSI SQL 标准 。 


Phoenix 1.2.1 发 布 后 ， 增 加 了 HBase CDH4.3 和 MAPR 的 支持 ， 支 持 TopN queries, select count、 声 明 主 键 排序 。 对 Phoenix 


w 
TAKI 


户 和 


户 组 : Phoenix HBasef 


趣 的 读者 可 以 加 入 表 6-8 中 的 2 个 


Phoenix HBase 开 发 者 ， 


Phoenix HBase 用 户 
Phoenix HBase 开发 者 


ok 


2.Phoenix 架 构 


不 同 于 Hive on HBa 
Scan 来 完成 的 。 


为 了 尽 可 能 减少 数据 传输 ， 在 Region Server 使 


并 


可 以 从 RoadMap 查 看 Phoenix 的 开发 计划 。 


表 6-8 Phoenix 分 组 用 户 的 访问 地 址 


访问 地 址 


https://groups.google.com/forum/£!forum/phoenix-hbase-user 


分 组 用 户 


https://groups.google.com/forum/#!forum/phoenix-hbase-dev 


规划 https://github.com/forcedotcom/phoenix/wiki£wiki-roadmap 


HBase API 实 现 ， 规 避 MapReduce 框 架 ， 减 少 查询 的 时 间 延 迟 。Phoenix 中 SQL Query Plan 的 执行 ， 基 本 上 是 通过 构建 一 系列 HBase 


se 的 方式 ，Phoenix 将 Query Plan 直接 使 


Coprocessor 以 尽 可 能 执行 Aggregate 相 关 工 作 ， 基 本 思想 是 使 用 RegionObserver 在 PostscannerOpen hook 中 将 RegionScanner 蔡 换 成 支持 


Aggregation 工 作 的 定制 化 的 Scanner， 具 体 的 Aggregate 操 作 通 过 custom 的 scan 属 性 传递 给 RegionScanner。 与 基于 MapReduce 框 架 执行 Plan 的 思想 比较 ， 基 本 上 就 是 通过 Coprocessor， 使 
RegionServer 自 身 在 各 个 节点 上 执行 Aggregation。 
此 外 ， 通 过 各 种 定制 的 Filter 在 HBase 的 RegionScanner scan 过 程 中 ， 可 以 尽早 地 过 滤 不 相关 的 数据 。Phoenix 采 用 JDBC 接 口 和 应 用 程序 交互 。 


3.Phoenix 实 现 功能 


目前 支持 简单 的 表 创 


建 、 修 改 、 数 据 删 除 、 过 滤 、 检 索 等 SQL 语句 ， 从 语法 上 看 ， 不 支持 多 表 操作 。 由 于 不 支持 多 表 联合 类 的 操作 如 各 种 Join 等 ， 所 以 在 Where 部 分 也 就 不 能 做 多 表 比 较 。 基 于 HBase 


的 Timestamp (版 本 ) F 


由 于 协 处 理 器 和 过 滤器 


n 不 限制 修饰 符 等 特性 ， 实 现 了 一 些 有 趣 的 功能 ， 例 如 动态 列 、 谱 套数 据 结构 、schema 演 化 等 。 


困难 ， 或 者 大 量 工作 需要 在 客户 端 代码 中 实 


自身 能 力 的 限制 ， 如 果 完 全 不 依赖 MapReduce 框 架 ， 只 通过 HBase 客 户 端 API 想 要 实现 复杂 查询 操作 ， 如 多 表 联合 操 作 ， 相 对 比较 


现 ， 性 能 上 可 能 无 法 满足 需求 。 


Phoenix 


前 已 经 实现 的 功能 如 下 : 


- 支持 HBase 0.94.2 及 以 上 版 本 ; 


- 数据 定义 语言 DDL: 插入 INSERT、 删 除 DELETE、 更 新 UPDATE、 查 询 SELECT; 


“ 数据 操作 语 


- RA: 去 重 查询 SELECT DISTINCT、 分 组 聚合 GROUP BY, 


DML: 建 表 CREATE TABLE、 建 视图 CREATE VIEW、 删 除 DROP、 更 改 ALTER; 


分 组 条 件 HAVING、 排 序 ORDER BY; 


- 批量 操作 : 批量 更 新 UPSERT VALUES、 批 量 选 择 更 新 UPSERT SELECT; 


: 查询 : 源 FROM、 


“ 表 选 项 : 


条 件 WHERE、 条 件 IN/OR/LIKE、TopN 查 询 ; 


内 置 负载 均衡 属性 SALT_BUCKETS、 数 据 块 编码 DATA_BLOCK_ENCODING、 最 大 文件 大 小 MAX_FILESIZE、 持 久 化 大 小 MEMSTORE_FLUSHSIZE; 


“ 列 选项 : 数据 块 编码 DATA_BLOCK_ENCODING、 版 本 VERSIONS、 最 大 文件 大 小 MAX_FILESIZE、 持 久 化 大 小 MEMSTORE_FLUSHSIZE; 


- 其 他 : 主键 ASC/DESC、 动 态 列 、 解 释 EXPLAIN、 注 释 COMMENTS (-4 //. /**/) o 


4.Phoenix 目 前 的 规划 


规划 由 用 户 社区 驱动 ， 按 照 优先 级 别 ， 表 6-9 是 Phoenix 目 前 的 规划 。 


表 6-9 Phoenix 目前 的 规划 串 


规 x 功能 描述 

允许 用 户 通 过 DDL 命令 CREATE INDEX 创建 索引 ， 在 后 台 创 建 另 一 个 HBase X€, iX 
表 的 Rowkey 和 原 表 不 同 。 在 搜索 的 时 候 ， 基 于 形成 的 Rowkey 的 数量 ，Phoenix 精心 地 
选择 最 合适 的 表 。 在 初始 情况 下 支持 两 种 索引 ， 第 一 种 也 是 最 简单 的 将 会 是 通过 HFiles 
加 载 到 HBase 的 不 可 变数 据 。 现 在 Phoenix 已 经 支持 未 提交 的 List<KeyValue> 创建 
HFile， 并 且 也 已 经 将 这 个 功能 扩展 到 支持 每 个 索引 的 未 提交 的 List<KeyValue>。 当 数据 
表 变 化 时 ， 这 将 缓和 索引 维护 的 需求 。 第 二 种 索引 支持 变化 的 数据 。 这 种 索引 下 ， 每 当 数 
据 表 变化 ，Phoenix 将 增加 WAL 记录 ,包含 足够 信息 以 保证 在 任何 错误 情况 下 部 能 生成 
索引 

尽管 目前 已 经 支持 COUNT, SUM, AVG, MIN 和 MAX, 但 是 不 支持 COUNT DISTINCT 
和 PERCENTILE, Phoenix 应 该 支持 一 个 精确 版 本 ， 同 时 支持 一 个 近似 估计 版 本 (精确 度 
可 配置 )。 精 确 版 本 在 最 后 合并 阶段 能 返回 客户 端 所 有 的 去 重 值 ， 但 近似 估计 版 本 则 不 会 
XF CPU, VERLO, 9458 WO、 等 待 时 间 、 阻 塞 时 间 和 HBase 集群 中 每 个 查询 的 协 处 理 
器 和 客户 端 线程 池 中 的 每 个 线程 执行 花费 的 传输 时 间 ， 还 应 该 罗列 出 活跃 session 和 当前 运 
行 的 查询 。EXPLAIN PLAN 提供 了 一 个 查询 如 何 执行 的 思路 ， 但 仍然 需要 更 多 的 信息 帮助 
用 户 跟踪 和 调整 他 们 的 查询 

基本 类 型 都 支持 ， 但 是 ELOAT、DOUBLE、TINYINT、SMALLINT 还 没有 添加 支持 ， 
- 些 常 规 的 清理 、DEFAULT 的 支持 和 DDL 时 间 的 自 增长 将 添加 进 Phoenix (通过 标准 
SQL 序列 支持 ，HBase 的 插 人 和 增长 实现 )。 很 有 可 能 将 这 些 功能 打包 ， 然 后 贡献 给 HBase 
官方 


3 监控 和 管理 


4 类 型 添加 


5 在 FROM 语句 中 允许 SELECT 语句 定义 一 个 衍生 表 ， 也 支持 流水 线 查询 
6 通过 分 阶段 方法 支持 多 表 Join 

7 支持 左 、 右 、 内 、 外 Join，Join 左边 或 右边 的 表 可 以 放 到 内 存 中 

8 | Semiantijoin | 支持 相关 子 查 询 ，Join 左边 或 右边 的 表 可 以 放置 到 内 存 中 


基于 成 本 的 优 | 一旦 实现 二 级 索引 和 Jom 后 ， 需 要 收集 和 维护 状态 信息 ， 驱 动 查询 优化 决策 提升 查询 
化 器 效率 
支持 WINDOW, PARTITION OVER 和 RANK 等 方法 


(5E) 


功能 描述 
不 像 标准 的 关系 型 数据 库 ，HBase 允许 在 同一 行内 尽 可 能 多 地 动态 创建 键 值 。Phoenix 能 
通过 在 父 行 里 面 创建 子 行 的 方法 来 平衡 。 子 行 可 以 包含 一 系列 键 值 ， 其 列 修饰 符 以 一 个 已 
知 的 名 字 和 子 行 主键 为 前 级 。Phoenix 可 以 隐藏 所 有 的 复杂 性 ， 人 允许 通过 连接 父 行 在 内 骨 孩 
子 上 查询 。 从 本 质 上 来 说 ， 这 可 以 是 所 有 常规 Join 的 优化 ， 但 是 可 以 支持 Join 两 边 的 数据 
量 级 都 很 大 ， 不 支持 放置 到 内 存 的 情况 


shiii 支持 TABLESAMPLE， 通 过 实现 过 滤器， 其 使 用 每 个 region 只 返回 na 行 的 状态 统计 建立 


12 dé : Vds RATS , 
的 控制 指标 
x6 Phoenix 通过 DDL 命令 ALTER TABLE 支持 添加 和 删除 列 ， 但 是 仍 不 支持 改变 数据 类 型 ， 
13 Schema 演变 gm hei 
重 命名 现 有 列 
14 通过 整合 控制 timestamp 的 系统 ， 类 似 OMID (https://github.com/yahoo/omid)， 支 持 事 务 
— 支持 Join， 两 边 数 据 量 都 很 大 ， 不 适合 放置 到 内 存 中 。 随 着 类 似 Apache Drill 等 项 目的 
15 | (D LE Join 


发 展 ， 这 些 系统 将 可 能 分 解 查 询 和 执行 非常 有 效 的 Join 操作 ， 这 个 需求 将 会 慢 慢 缩小 


5.Phoenix 的 优 缺 点 


Phoenix 实 现 SQL 引擎 层 的 方法 独特 ，Salesforce.com 内 部 已 经 在 使 
划 ， 所 以 Phoenix 本 身 确 实 是 一 个 不 错 的 项 


， 其 他 使 
， 表 6-10 总 结 了 Phoenix 方 案 的 优 缺点 。 


者 提出 了 很 多 有 建设 性 的 问题 和 建议 ， 项 


更 新 频 度 和 问题 解决 速度 都 让 人 称赞 ， 其 项 


组 也 相应 给 出 了 未 来 的 规 


表 6-10 ”Phoenix 方案 的 优 缺点 


点 


AS 


优 


缺 


AT 


e 安装 简单 。 注 意 版 本 对 应 一 致 ， 复 制 依赖 包 即 可 e 现 阶 段 只 提供 Shell 和 Java 方式， 不 支持 其 他 语 
e 规避 MapReduce 方式 ， 直 接 使 用 Scan、Coprocessor 和 言 和 其 他 访问 方式 ， 例 如 thrift 
Filter 实现 查询 ， 在 一 定数 据 量 级 上 更 高 效 e 没有 实现 Join， 对 于 关联 属性 无 法 查询 
e 于 万 量 级 及 以 下 的 查询 性 能 很 好 。 每 次 升级 都 需要 重启 RegionServer， 不 够 友好 
e 所 有 数据 都 存储 在 HBase 中 ， 无 须 其 他 存储 方式 和 介质 |e 版 本 局 限 性 。 目 前 只 支持 HBase 0.94.2 及 以 上 
e 项 目 活跃 。 项 目 更 新 频率 和 问题 解决 速度 很 快 版 本 
6.3.2 “Phoenix 安装 环境 准备 


Phoenix 安 装 依赖 环境 如 表 6-11 所 示 。 


表 6-11 依赖 环境 的 版 本 


环 R 版 ”本 

操作 系统 Linux (CentOS, Ubuntu, RedHat 等 ) 
JDK 1.6 及 以 上 

Hadoop I.* 

HBase 0.94.4 及 以 上 


其 中 ，Phoenix 和 HBase 版 本 的 对 应 关系 如 表 6-12 所 示 ， 读 者 可 根 扩 


居 实 际 情况 选择 对 应 HBase 版 本 ， 对 于 HBase 0.94.2 以 前 的 版 本 ， 


前 Phoenix 还 不 提供 支持 ， 详 细 版 本 支持 见 表 6-12 所 示 。 


表 6-12 Phoenix 与 HBase 版 本 支持 


63.3 


接 下 来 将 介绍 安装 Phoenix 的 详细 过 程 。 


Phoenix HBase 
12251 0.94.4 及 以 上 
1.2.0 0.94.4 及 以 上 
1.1 0.94.4 及 以 上 
1.0 0.94.2 或 0.94.3 


Phoenix 安 装 部 署 


在 安装 过 程 中 ,使 


程 基于 HBase 集 群 已 经 安装 成 功 的 前 提 。 


1) 


"F&Phoenix, 


wget http://phoenix-bin.github.com/client/phoenix-1.2.1-install.tar 


Phoenix 1.2.1 和 HBase 0.94.18 版 本 (因为 本 书 统一 使 


HBase 0.94.18 进 行 讲解 ) 。 对 于 HBase 的 安装 部 署 这 里 不 做 详 述 ， 下 面 的 安装 过 


2) 


解压 缩 。 


mkdir /opt/modules/hbase/phoenix 
mv phoenix-1.2.1-install.tar /opt/modules/hbase/phoenix 
tar xvf phoenix-1.2.1-install.tar 


删除 依赖 。 从 HBase 集 群 删除 上 日 版 本 Phoenix 相 关 JAR 包 。 进 入 每 台 HBase RegionServer， 在 HBase 主 目录 下 的 lib 文 件 夹 中 ， 删 除 phoenix-[version]jar。 
添加 依赖 。 将 解压 后 phoenix-[version]jar 复 制 到 每 一 台 Regionserver 的 lib 目 录 中 ， 即 添加 到 每 台 RegionServer 的 环境 变量 中 。 

重启 RegionServer。 重 启 所 有 HBase RegionServer 机 器 。 

客户 端 。 从 客户 端 环境 变量 删除 | 旧版 本 phoenix-[version]-client.jar， 将 解压 后 新 版 本 phoenix-[version]-client.jar 添 加 到 每 个 客户 端的 环境 变量 中 。 
验证 安装 。 


cd /opt/modules/hbase/phoenix/bin 
./sqlline.sh «hbase.zookeeper.quorum» 


执行 ! tables 命 令 ， 


如 果 执 行 命令 类 似 图 6-5 所 示 数 据 输出 ， 证 明 Phoenix 安 装 成 功 。 


图 6-5 展 示 了 多 个 表 ， 如 果 初 始 化 时 执行 该 命令 ， 


则 查询 结果 为 空 。 


TABLE_CAT TABLE_SCHEM TABLE_NAME SELF_REFERENCING_COL_NAME REF_GENERATION 


M_INTERFACE_COLLECT | m 1 null 
M INTERFACE INDEXDATA | m nul null 
M INTERFACE, 1 null 
M INTERFACE RSYNC 1 null 
M INTERFACE, SAVEDATA ni 1 null 
M INTERFACE, SERVICE | m 1 null 


图 6-5 ! tables 命 令 执行 结果 图 


6.3.4 “Phoenix 源码 编译 


如 果 读 者 对 Phoenix 感 兴趣 ， 或 计划 对 Phoenix 进 行 二 次 开发 ， 请 继续 阅读 本 节 。 本 节 将 详细 介绍 如 何 编译 Phoenix 源 代码 ， 如 何 搭建 Eclipse 工 程 及 Phoenix 代 码 修 改 。 
1. 环 境 需 求 

环境 需求 如 下 : 

* Maven 3.* (https://maven.apache.org/) 

- Eclipse Classic 3* 及 以 上 (http://www.eclipse.org/downloads/) 

- Linux (CentOS、Ubuntu、RedHat 等 ) 

接 下 来 的 操作 都 是 基于 桌面 版 Linux 进 行 。 


2. 安 装 Maven 3 


因为 Phoenix 工 程 使 用 Maven 3 进 


B 


的 组 织 和 编译 ， 所 以 如 果 改 动 Phoenix 源 代码 ， 需 要 先 安装 Maven 3， 安 装 流程 如 下 。 


1) 下 载 。 


wget http://mirror.bjtu.edu.cn/apache/maven/maven-3/3.0.5/ binaries/apache-maven-3.0.5-bin.tar.gz 


2) 解压 缩 。 


mkdir /opt/modules/maven 

mv apache-maven-3.0.5-bin.tar.gz /opt/modules/maven/ 
tar -zxvf apache-maven-3.0.5-bin.tar.gz 

cd apache-maven-3.0.5 


3) 环境 变量 配置 。 编 辑 /etc/profile， 将 下 列 代码 添加 到 文件 最 后 : 


export MAVEN HOME-"/opt/modules/maven/apache-maven-3.0.5" 
PATH-$PATH: SMAVEN HOME. /bin 


然后 执行 source/etc/profile 命 令 ， 使 得 之 前 修改 的 环境 变量 生效 。 


4) 测试 安装 。 在 Linux 终 端 执行 mvn-version 命 令 ， 如 果 看 到 类 似 下 面 的 输出 信息 ， 说 明 Maven 3 安装 成 功 。 


Apache Maven 3.0.5 (r01del4724cdefl64cd33c7c8c2fel55faf9602da; 2013-02-19 21: 51: 28+0800) 
Maven home: /opt/modules/maven/apache-maven-3.0.5 

Java version: 1.6.0 38, vendor: Sun Microsystems Inc. 

Java home: /usr/lib/jvm/jdk1.6.0 38/jre 

Default locale: zh CN, platform encoding: UTF-8 

OS name: "linux", version: "3.2.0-33-generic", arch: "amd64", family: "unix" 


3. 安 装 Eclipse 


Eclipse 是 最 常用 的 Java 语 言 开 发 IDE 工 具 之 一 ， 而 Phoenix 完 全 使 用 Java 语 言 开发 。Eclipse 的 安装 过 程 如 下 : 


1) 下 载 。 从 Eclipse 官方 (http://www.eclipse.org/downloads/) 下 载 Eclipse Classic 4.2.2。 


2) 解压 缩 。 解 压 到 当前 目录 即 可 。 


3) 执行 。 进 入 解压 缩 后 的 目录 ， 从 命令 行 启动 Eclipse: 


./eclipse 


启动 界面 如 图 6-6 所 示 。 


e java -Eclipse SDK 


Project Run 


Overview Tutorials samples What's New 


LC 
Workbench 


Get an overview of the features 


图 6-6 ”Eclipse 启动 界面 
4. 下 载 并 解压 缩 Phoenix 源 代码 


下 载 Phoenix 1.2.1 版 本 : 


wget https: //github.com/forcedotcom/phoenix/archive/1.2.1.zip 


解压 缩 到 当前 目录 : 


unzip 1.2.1.zip 


5.Eclipse 搭 建 工程 


1) 进入 解压 缩 的 Phoenix 目 录 ， 执 行 mvn clean 命 令 清除 原 有 编译 过 的 文件 。 输 出 信息 如 下 : 


INFO] Scanning for projectshttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
INFO 
[a dere iere 
INFO] Building Phoenix 1.2.1 

INEO] -Sm 
INFO 
INFO] - 
INFO 
INFO 
INFO 
INFO] Total time: 0.758s 

INFO] Finished at: Tue Jun 18 18: 17: 02 CST 2013 

INFO] Final Memory:  7M/115M 

pa ael ear I a  -:  : G2: - :  - A 


maven-clean-plugin: 2.4.1: clean (default-clean) @ phoenix --- 


2) 执行 mvn eclipse:eclipse 命 令 创建 Eclipse 工程 ， 输 出 信息 如 下 : 


INFO] Scanning for projectshttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
INFO 
TNEO][ Se a aa a a E a a 
INFO] Building Phoenix 1.2.1 

INEG) Sossamon 
INFO 
INFO] >>> maven-eclipse-plugin: 2.8: eclipse (default-cli) 6 phoenix >>> 
INFO 
INFO] --- build-helper-maven-plugin: 1.7: add-source (add-source) @ phoenix --- 

INFO] Source directory:  /root/download/phoenix/phoenix-1.2.1/target/ 

generated-sources/antlr3 added. 

INFO] Source directory:  /root/download/phoenix/phoenix-1.2.1/src/main/antlr3 added. 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
INFO 
INFO 
INFO 
INFO 
INFO] Finished at: Tue Jun 18 18: 17: 39 CST 2013 

INFO] Final Memory: 15M/285M 

JR 天 we 


3) 工程 导入 Eclipse。 


执行 File 一 Import 一 Existing Projects into Workspace 一 Browse (选择 hadoop-1.1.2 目 录 ) 一 Finish， 之 后 工程 成 功 导 入 ， 如 图 6-7 所 示 。 


如 


网 


但 是 ,工程 导 入 后 会 发 现在 工程 的 左上 角 有 一 个 红色 的 感叹 号 ， 这 说 明 工 程 的 依赖 存在 问题 。 双 击 下 面 的 Problem 标 签 ， 发 现 没有 定义 全 局 变量 M2_REPO。 问 题 界 


6-8 所 示 。 


E 


Java - Eclipse S 


a dgGgvts$vi. F : s Q Quick Acces: Jh EP | 各 Java 


Ine :可 :区 "Da 


9 su D / & Outline 73 e B 
ats "v Anoutline is not avallable. 


I$ Package Explorer $3 


Y i3 phoenix 
^ ($9 src/test/java 
» ($$ src/test/resources 
d. 
> (S8 target/generated-sources/antlr3 
> (8 src/main/antlr3 
> & target/generated-sources/antlr3/co 
> m JRE System Library [jdk1.6.0_38] 
» Cbin 
> G» dev 
» & docs 
> & examples 
> &src 
> @ target 
E] build.txt 
E license.txt 
bà pom.xml 
(3f README md 


&: Problems X | @ Javadoc [& Declaration SEDET 
B1 errors, 0 warnings, 0 others 
Description Resource Path Location Type ] 


unbound classpath variable: 'M2 REPO/ant/ant/1.6.5/ant-1.6.5.jar' in project 'phoenix' 
图 6-7 Phoenix 项 目 初始 化 导入 界面 


Java - Eclipse SDK 


S CE wi Grim sr a | E [& ava 


Hi package Explorer 3 - m O — EE outline 23 "m 


z An outline is not available. 


Y 82 phoenix 
* $$ src/test/java 
* 99 src/test/resources 
» gh B. Problems % | @ Javadoc [Is Declaration A OE f 


> &@ target/generated-sources/antir3 B1 errors, 0 warnings, 0 others 


* &*src/main/antir3 Description Resource Path Location Type 
r gs target/generated-sources/antlr3/Cco | y» @ Errors (81 Items) T T H 1 
i i j i 
* mà JRE System Library [jdk1.6.0 38] @ The project cannot be built until build path errors ES phoenix | | Unknown i Java Proble 


* & bin f- Unbound classpath variable: 'M2 REPO/ant/ant/1.6.5, phoenix Build path Build Path P 
* Gs dev Ta Unbound classpath variable: 'M2 REPO/antir/antlr/2.3 phoenix | Build path | Build Path P 
* $5 docs 加 Unbound classpath variable: 'M2. REPO/asm/asm/3.1] phoenix | Build path : Build PathP 
”amp i Unbound classpath variable: 'M2 REPO/com/github/$ phoenix iBuildpath ^ Build Path P: 
"re «3 Unbound classpath variable: 'M2. REPO/com/google/ phoenix : Build path | Build Path P 
"ie target Sa Unbound classpath variable: 'M2 REPO/com/google/i phoenix Í Build path i Build Path P 
B build.txt ^is unbound classpath variable: 'M2 REPO/com/google/| phoenix Í Build path | Build Path P 
E license.bxt :3 Unbound classpath variable: 'M2 REPO/com/sun/jers; phoenix | Build path f Build Path P: 
B pom.xml à» unbound classpath variable: 'M2. REPO/com/sun/jers phoenix i Build path i Build Path P 
8f README.md Ta Unbound classpath variable: 'M2, REPO/com/sun/jers! phoenix | Build path | Build Path P: 
13 Unbound classpath variable: 'M2 REPO/com/sun/xmii phoenix | Build path | Build Path P 
Ta Unbound classpath variable: 'M2 REPO/com/yammer, phoenix j Build path i Bulld Path P 
i Unbound classpath variable: 'N2. REPO/commons-bei phoenix i Build path | Build Path P 
«à Unbound classpath variable: 'M2 REPO/commons-bei phoenix | Build path | Build Path P 
Ta Unbound classpath variable: 'M2 REPO/commons-cli/ phoenix | Build path | Build Path P 
a Unbound classpath variable: 'M2 REPO/commons-cot phoenix : Build path | Build Path P 
w Unbound classpath variable: 'M2. - REPO/commons-col phoenix | Build path | Build Path P 
:3 Unbound classpath variable: 'M2 REPO/commons- cof phoenix | Build path i 


Unbound classpath variable: 'M2 REPO/ant/ant/1.6.5/ant-1.6.5.jar' in project 'phoenix' 


4) 添加 全 局 变量 


图 6-8 ” Phoenix 编译 问题 界面 


FT A OA m Ba Hh D^ 


在 工程 上 右键 点 击 ， 选 择 Build Path 一 Conrigure Build Path 一 Java Build Path 一 Libraries 一 Add Variablehttp://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ebook/uncompressed/14884/OEBPSVText/.… 一 Configure Variableshttp://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 一 new， 创 建 全 局 变量 M2_REPO。 添 加 全 局 变量 如 图 6-9 所 示 。 


ə New Varlable Entry 


Name: | M2_REPO 


Path: |/root/.m2/repositoryl | Fe. Folder... 


图 6-9 Eclipse 添加 全 局 变量 界面 


M2_REPO 代 表 Maven 本 地 库 路 径 ，Path 值 需要 读者 根据 实际 情况 填写 ，/root/.m2/repository 是 笔者 系统 的 路 径 ， 供 读者 参考 。 


创建 完 变量 ， 一 路 点 击 OK 和 YES， 直 到 进入 如 图 6-10 所 示 界 面 。 


Java - Eclipse SDK 


[- wi*r-0-Q- xiuGiv e. Qa | m (Eom 
H Package Explorer 23 m jm] 2 om & Outline K cm 
Bt | Anoutline is not available. 
Y g phoenix 
* j$ src/test/java 


* 95 src/test/resources 

* $8 src/main/java 

* target/generated-sources/ant 
* i$ src/main/antlr3 

> gf? targeL/generated-sources/ant 
* mà Referenced I ihraries 

* mà JRE System Library [jdk1.6.0 3 


> z bin 
* Bdev Ei Problems x © E E = s op 
* 多 docs 101 errors, 18 warnings, O others (Filter matched 118 of 119 items) 
> & examples Description Resource Path Location Type 
^ $5 src v O Errors (100 of 101 items) | | i | 
* ge target 4B AliasedNode cannot be resolved to a type : | PhoenixSQLPars! 有 line 2466 Í Java Problem 
B build.txt % AliasedNode cannot be resolved to a type i PhoenixSQLPars| [phoenix/target/generi line 2528 | Java Problem 
license.txt ‘a AlterTableStatement cannot be resolved to a type i | PhoenixsoLpars [phoenix/taraet/gener| line 492 | Java Problem 
R pom.xml “a AlterTableStatement cannot be resolved toa type | | PhoenixSQLPa rs! /phoenix/target/gener: line 1404 | Java Problem 
3f README.md n BindParseNode cannot be resolved to a type | phoenixsQLpars| [phoenix/target/gener| line 4432 | Java Problem 
ia ColumnDef cannot be resolved to a type i PhoenlxSQLPars | [phoenix/target/gener| line 1662 | Java Problem 
加 ColumnDef cannot be resolved to a type | PhoenixSQLPars| [phoenix/target/generi line 1724 | Java Problem 
= ColumnDerName cannot be resolved to a type sena ia [phoenix/tarcet/generi line 1230 i Java Problem 
ii CreateTableStetement cannot be resolved to a type į i PhoenixSQLPars| [phoenix/target/gener| line 490 | Java Problem 
% CreateTablestatement cannot be resolved to a type | i PhoenixsQLPars [phoenix/target/gener; line 717 | Java Problem 


Ma i nt he he marri fh fr rn na THO doa me 


图 6-10 添加 M2_REPO 变 量 后 的 界面 


5) 发 现 添加 全 局 变量 后 ，Phoenix 工 程 存在 编译 错误 。 


在 出 现 编译 错误 的 源 文件 夹 target/generated-source/antlr2/com/salesforce/phoenix/parse 上 右键 点 击 ， 选 择 Build Path 一 Remove From Build Path， 至 此 Phoenix 工 程 导 入 Eclipse 成 功 完成 。 最 
终 的 Phoenix 项 目 组 织 如 图 6-11 所 示 。 


* Java- Eclipse SDK 


时 | [各 Java 


=. $i* Orr a EG Av rr 


rt 
5 


H Package Explorer 23 EP = A SB Outline X LAE. 
Ba" An outline is not available. 

Y $i phoenix 

* $9 src/test/java 

> Œ src/test/resources 

» $$ src/main/java 

* G5 target/generated-sources/antlr3 

* $9 src/main/antlr3 

> mà Referenced Libraries 

> BÀ JRE System Library [jdk?.6.0 38] 

* gg bin 

* & dev 

* & docs 

* & examples 

^ sre 


—: & Problems X ® Java Declaral M. fen Ej 
B bulld.txt e 


B license.txt Derrors, 18 warnings, 0 others 
R pom.xml Description Resource Path Location Type 
7 README.md » & warnings (18 items) i f Í 


图 6-11 Phoenix 项 目 组 织 图 
6 .修改 代码 


在 com.salesforce.phoenix 包 下 创建 Test 类 ， 代 码 如 下 : 


package com.salesforce.phoenix: 
public class Test ( 
public static void main (String[] args) ( 
System.out.println ("Hello Phoenix! ") ; 
} 
} 


ENTRE: 


中 


mvn install 


执行 安装 命令 : mvn install-Dmaven.test.skip=true， 跳 过 Maven 测 试 阶段 ， 输 出 信息 如 下 : 


INFO] Scanning for projectshttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
INFO 
splelÉ a cac acc x -: C 2 m (  :  ] : 1 c c CC cc c CD 
INFO] Building Phoenix 1.2. 
了 RN 

Downloading: http://repository.codehaus.org/jline/jline/0.9.9/jline-0.9.9.pom 

Downloading: https: //repository.apache.org/content/repositories/releases/ 
jline/jline/0.9.9/jline-0.9.9.pom 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
INFO] Installing /root/download/phoenix/phoenix-master/target/ 

phoenix-2.0-SNAPSHOT-javadoc.jar to /root/.m2/repository/com/salesforce/ 
phoenix/2.0-SNAPSHOT/phoenix-2.0-SNAPSHOT-javadoc.jar 

© (A 

INFO] BUILD SUCCESS 

TAPO]. ‘roma 

INFO] Total time: 53.101s 

INFO] Finished at: Tue Jun 18 18: 14: 13 CST 2013 

INFO] Final Memory:  38M/705M 

TAPO] cu DD E c: c : :  :  :  : 9 0 0: 0 2 2 22 


编译 完成 后 ， 在 Phoenix-1.2.1 目 录 下 进入 target 目 录 ， 可 以 看 到 如 下 文件 : 
oenix-1.2.1-clientjar (客户 端 ) 

hoenix-1.2.1.jar (服务 器 端 ) 

oenix-1.2.1-javadoc.jar (javadoc) 


hoenix-1.2.1-sources.jar ( 源 代 码 包 ) 


oenix-1.2.1.tar.gz (综合 包 ) 


6.3.5 Phoenix 中 SQLLine 的 快速 使 用 


SQLLine 是 一 个 纯 Java 控 制 台 工具 ， 用 于 连接 关系 型 数据 库 并 执行 SQL 命令 。 该 工具 和 其 他 命令 行 数据 库 访 问 工 具 类 似 ， 例 如 Oracle 的 sqlplus、MySQL 的 mysql、Sybase/SQL Server 的 isql。 因 为 是 纯 
Java 开 发 ， 其 依赖 JDK 1.3 及 其 以 上 版 本 。SQLLine 基 于 BSD 授 权 协 议 ， 意 味 着 分 发 、 修 改 、 商 用 都 没有 限制 四。 


Phoenix 从 1.2 版 本 开始 绑 定 SQLLine 作 为 内 谋 的 SQL 命 令 行 交互 工 具 ， 下 面 介绍 Phoenix 中 SQLLine 的 具体 使 用 细节 。 


1 启动 


在 phoenix 1.2.1 主 目录 下 bin 文 件 夹 中 ， 执 行 下 列 命令 : 


./sqlline.sh <hbase.zookeeper.quorum> 


其 中 ，hbase.zookeeper.quorum 是 HBase 集 群 的 ZooKeeper 队 列 ， 对 应 IP/Hostname 逗 号 分 隔 的 列表 。 例 如 : 


./sqlline.sh hbase-rsl, hbase-rs2, hbase-rs3 


执行 该 命令 后 ， 客 户 端 成 功 启动 。 


2. 罗 列 所 有 表 


在 客户 端 执行 ! tables 命 令 。 罗 列 所 有 表 到 客户 端 界面 ， 如 图 6-5 所 示 ， 图 中 展示 的 不 是 初始 化 Phoenix 时 的 列表 。 还 有 ， 通 过 该 客户 端 展 示 出 的 表 都 是 通过 Phoenix 客 户 端 创建 的 ， 通 过 其 他 方式 创建 
的 表 在 此 处 不 展示 。 


3. 创 建 表 


M INTERFACE JOB 的 建 表 语 句 如 下 : 


CREATE TABLE M INTERFACE JOB ( 
data.addtime VARCHAR , ` 
data.dir VARCHAR ， 
data.end time VARCHAR , 
data.file VARCHAR , 
data.fk_log VARCHAR , 
data.host VARCHAR 

data.msg VARCHAR ， 
data.row VARCHAR 

data.size VARCHAR 
data.start_time VARCHAR , 
data.stat_date DATE , 
data.stat hour VARCHAR 
data.stat minute VARCHAR ， 
data.state VARCHAR , 
data.title VARCHAR 
data.user VARCHAR , 
data.inrow VARCHAR , 
data.jobid VARCHAR , 
data.jobtype VARCHAR , 
data.level VARCHAR , 
data.outrow VARCHAR , 
data.pass_time VARCHAR , 
data.type VARCHAR , 

id INTEGER not null primary key 
) 


其 中 ，id 是 主键 ， 即 HBase 表 只 有 一 个 列 作为 主键 。 只 有 一 个 列 族 data。 


4. 查 看 表 描 述 信息 


查看 表 描 述 信息 的 操作 和 一 般 的 RDBM S 操 作 类 似 ， 即 describe 命 令 ， 不 过 在 Phoenix 中 需要 在 命令 前 加 一 个 感叹 号 ， 如 下 所 示 。 


! describe M INTERFACE JOB 


Ed 
4 
a 
= 
yi 
hha 
Foii 
E 
区 


6-12 所 示 ， 由 于 篇 幅 有 限 图 中 仅 展示 出 表 的 部 分 字段 。 


Phoenix 自 身 提供 了 加 载 数据 的 命令 ， 如 下 所 示 。 


./psql.sh <hbase.zookeeper.quorum> http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/../examples/web stat.sql http://www.k 
/web stat.csv http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/../examples/web stat queries.sql 


其 中 ，examples 目 录 下 的 三 个 文件 分 别 用 于 : 
"web statsq: 建 表 语句 。 

* web staLcsv: 数据 文件 。 

. web_stat_queries.sql: 查询 语句 。 


这 些 都 是 Phoenix 自 带 的 测试 文件 。 在 命令 行 执行 加 载 数据 命令 的 结果 如 图 6-13 所 示 。 


| TABLE CAT | TABLE SCHEM TABLE, NAME COLUMN NAME DATA TYPE COLUMN SIZE BUFFER LENGTH NUM PREC RAD 
| DATA | null M INTERFACE JOB PK LOG 12 ( null null | null 
DATA null M INTERFACE J08 TYPE 12 null null null 
DATA | null M INTERFACE JOB TITLE 12 j null null | null 
DATA null M INTERFACE J08 USER 12 null null null 
DATA null M INTERFACE, JOB HOST 12 | f null null | null 
| DATA | null M INTERFACE J08 START. TIME 12 JAR null null null 
DATA | null M INTERFACE JOB END TIME 12 J null null | null 
DATA null M INTERFACE, 308 DIR 12 j null null | null 
DATA | null M INTERFACE JOB STATE 12 R null null null | null 
DATA null D i MSG 12 | null null null null 
| DATA null ALERTTYPE 12 i null null null | null 
DATA | null DONE 12 j null null null | null 
| DATA | null M INTERF ADDTIME 12 VARCHAR null null null | null 
| DATA null M INTERF FK LOG 12 VARCHAR null null null | null 
DATA | null M_INTERF i JOBIO 12 VARCHAR null null null | null 
DATA null M INTERFACE J08 LEVEL 12 VARCHAR null null null | null 
DATA null M INTERFACE JOB JOBTYPE 12 VARCHAR null null null | null 
| DATA | M INTERFACE J08 PASS TIME 12 VARCHAR null null 
DATA | M INTERFACE J08 INROW 12 VARCHAR null null 
| DATA M INTERFACE JOB | OUTROW 2 null null 
M INTERFACE. JO& 2 null 


图 6-12 ! desctibe 命 令 运行 结果 图 


39 rows upserted 
Time: 1.545 sec(s) 


CSV Upsert complete, 


Time: 0.535 sec(s) 


salesforce. 


Google.com 
Apple.com 


39 rows upserted 


AVERAGE CPU USAGE AVERAGE DB USAGE 


com 


Time: 0.179 sec(s) 


2013-01-01 
2013-01-02 
2013-01-03 
2013-01-04 
2013-01-05 
2013-01-06 
2013-01-08 
2013-01-09 
2013-01-10 
2013-01-11 
2013-01-12 
2013-81-13 
2013-01-14 
2013-01-15 
2013-01-16 
2013-01-17 


00:00:00 
00:00:00 
00:00:00 
00:80:08 
00:00:08 
00:00:00 
00:00:00 
00:90:08 
00:80:08 
00:00:00 
00:00:00 
60:89:08 
60:00:08 
00:60:00 
00:00:00 
00:00:08 


Time: 0.127 sec(s) 
HOST TOTAL ACTIVE VISITORS 


Time: 0.117 sec(s) 


查询 是 标准 SQL 的 语法 ， 如 下 所 示 。 


select * from WEB STAT; 


查询 结果 如 图 6-14 所 示 。 


260.7272 
212.875 
114.1111 


257.6303 
213.75 
119.5555 


TOTAL CPU USAGE MIN CPU USAGE 


图 6-13 ”加 载 数据 的 结果 


MAX CPU USAGE 


ApplLe. Con 

Apple.con 

Google.com Analytics 
Google.com Search 
Salesforce. Dashboard 
Salesforce. Login 
Salesforce, Reports 
Salesforce.c Reports 
Salesforce. Reports 
Salesforce. l Reports 
Salesforce. Reports 
Apple.con Login 
Apple.con Login 
Apple.conm Mac 
Apple.con Mac 
Apple.conm iPad 
Apple.con iPad 
Apple.con iPad 
Google.com Analytics 
Google.com Analytics 
Google.com Analytics 
Google,com Search 
Google.com Search 
Google.com Search 
Salesforce.com Dashboard 
Salesforce Dashboard 
Salesforce. Dashboard 
Salesforce.com Login 
Salesforce. Login 
Salesforce. ! Login 
Salesforce ! Login 
Salesforce. Login 
Salesforce. d Login 
Salesforce. Login 
Salesforce. Login 
Salesforce. Reports 
Salesforce. Reports 
Salesforce. 1 Reports 
Salesforce. 


使 用 聚合 查询 进行 总 数据 行 数 的 统计 ， 如 下 所 示 。 


2013-01-01 
2013-01-03 
2013-01-13 
2013-01-03 
2013-01-06 
2013-01-12 
2013-01-02 
2013-01-02 
2013-01-05 
2013-01-05 
2013-01-13 
2013-01-01 
2013-01-04 
2013-01-02 
2013-01-08 
2013-01-05 
2013-01-06 
2013-01-07 
2013-01-07 
2013-01-11 
2013-01-14 
2013-01-08 
2013-01-18 
2013-01-12 
2013-01-03 
2013-91-11 
2013-01-14 
2013-01-91 
2013-01-04 
2013-01-04 
2013-01-08 
2013-01-10 
2013-01-16 
2013-01-17 
2013-01-17 
2013-01-10 
2013-01-18 
2015-01-15 
2013-01-15 


图 6-14 ”标准 查询 的 结果 图 


wu un 


& ANN 
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SELECT COUNT (*) FROM M INTERFACE JOB; 


结果 如 图 


6-15 所 示 。 


平王 王 王 二 二 二 二 二 


| COUNT(1) 


eP-------4 
| HOST | 
T 
EU 
EU 
EU 


| Apple.com 

| Google.com 

| Salesforce.com 
| Apple.com 

| Google.com 

| Salesforce.com 
1 


图 6-16 使 用 GROUP BY 和 COUNT (*) 聚合 查询 的 结果 图 
8. 退 出 


使 用 SQLLine 命 令 退 出 命令 行 模式 ， 返 回 Shell 界 面 ， 如 下 所 示 。 


6.3.6 ”使 用 JDBC 访 问 Phoenix 


Phoenix 除 了 提供 SQLLine 这 种 命令 行 方 式 ， 同 时 提供 了 JDBC 代 码 的 访问 方式 ，JDBC 支 持 前 面 提 到 的 所 有 SQL 语 句 ， 包 括 DDL 和 DML 操 作 。 


使 用 JDBC 连 接 HBase 集 群 的 操作 代码 如 下 : 


Class.forName ("com.salesforce.phoenix.jdbc.PhoenixDriver") ; 
Connection conn = 
DriverManager.getConnection ("jdbc: phoenix: serverl, server2: 2181") ; 


连接 的 URL 格 式 的 代码 如 下 : 


jdbc: phoenix[: <zookeeper quorum»[: «port number»][: «root node>]] 


此 格式 和 JDBC 其 他 连接 ， 例 如 MySQL、Oracle 的 URL 格 式 保 持 一 致 。 其 中 ， 服 务 器 列表 部 分 是 HBase ZooKeeper 的 列表 ， 与 SQLLine 命 令 行 启动 的 ZooKeeper 参 数 相 同 。 


下 面 一 些 功能 是 不 支持 的 ， 读 者 在 使 用 过 程 中 需要 特别 注意 : 


“Joins。 目 前 只 支持 单 表 操作 。 


Union、Intersect、Minus 操 作 。 


下 面 是 使 用 JDBC 访 问 Phoenix 的 相关 测试 代码 : 


import java.sql.Connection; 
import java.sql.DriverManager: 
import java.sql.ResultSet; 
import java.sql.ResultSetMetaData; 
import java.sql.Statement; 
public class HBaseSQLDriverTest { 
// 创 建 数据 库 连 接 
public static Connection getConnection () ( 
Connection con; 
try ( 
// 设 置 连接 类 名 
Class.forName ("com.salesforce.phoenix.jdbc.PhoenixDriver") ; 
// 设 置 连接 URL 
con = DriverManager 
-getConnection ("jdbc: phoenix: hbase-rsl, hbase-rs2, hbase-rs3: 2181"); 
return con; 
) catch (Exception e) ( 
e.printStackTrace () ; 
return null; 


) 


l 
// 查 询 方法 
public void query (String sql) throws Exception { 
MA 
Connection con 
Statement stmt 
// 执 行 查询 
ResultSet rs = stmt.executeQuery (sql) ; 
// 获 取 元 数据 信息 
ResultSetMetaData rsmd = rs.getMetaData () ; 
int columnCount = rsmd.getColumnCount () ; 
/ BKWU 
StringBuilder sb = new StringBuilder () ; 
for (int i = 1; i <= columnCount; i++) { 
String columnName = rsmd.getColumnLabel (i) ; 
Sb.append (columnName + "Nt") ; 


getConnection () ; 
con.createStatement () ; 


} 
if (sb.length () > 0) 
sb.setLength (sb.length () - 1); 
System.out.println (sb.toString O ); 
// 获 取 结 果 
while (rs.next () ) { 
sb = new StringBuilder O ; 
for (int i = 1; i <= columnCount; i++) { 
Sb.append (rs.getString (i) + "Nt") ; 


if (sb.length O » 0) 
sb.setLength (sb.length OO - 1) : 
System.out.println (sb.toString () ) ; 


} 
// 关 闭 连接 


con.close () ; 


$ 

// 主 方法 

public static void main (String[] args) throws Exception ( 
HBaseSQLDriverTest test = new HBaseSQLDriverTest () ; 
test.query ("SELECT * FROM WEB STAT WHERE ACTIVE VISITOR > 200") ; 


[1] A J,http:/ /www.hbasecon.com/sessions/apache-drill-a-community-driven-initiative-to-deliver-ansi-sql-capabilitiesfor-apache-hbase-1 210pm-1230pm/ > 


[2] & £48 & & X http:/ /www.hydromatic.net/sglline/manual.html o 


64 ”对象 映射 框架 Kundera 


Kundera 实 现 的 目的 是 能 够 非常 方便 地 使 用 NoSQL 数 据 库 。 总 体 上 讲 ，Kundera 有 以 下 几 个 目标 : 


“ NoSQL 使 用 起 来 与 SQL 一 样 容易 ; 
“ 使 用 IPA 兼容 映射 解决 方案 ; 
“ 使 开发 者 忽略 NoSQL 存 储 的 复杂 性 ， 专 注 于 模型 层 ; 


“ 通过 修改 配置 来 操作 数据 存储 。 


6.4.1 认识 Kundera 


Kundera 是 Impetus 实 验 室 (iLabs) 支持 的 开源 项 目 。iLabs 是 Impetus Technologies (http://www.impetus.com) 公司 的 研发 咨询 部 门 。iLabs 专 注 于 下 一 代 技 术 和 实战 领域 以 及 相关 的 新 产品 研 
发 。iLabs 积 极 参与 并 致力 于 高 性 能 计算 技术 、 分 布 式 /并 行 计算 、Erlang、 网 格 软件 、GPU 软 件 、Hadoop、HBase、Cassandra、CouchDB 等 相关 技术 。iLabs 还 在 研究 各 种 其 他 开源 项 目 。 


1.Kundera 的 功能 


Kundera 目 前 支持 的 数据 库 有 : Cassandra、MongoDB、HBase、Redis、OracleNoSQL、Neo4j、Relational databases, 


Kundera 目 前 最 新 版 本 是 Kundera 2.5， 于 2013 年 4 月 30 日 发 布 。 该 版 本 包含 了 bug 修 复 、 性 能 优化 ， 以 及 新 的 特征 (与 2.4 版 本 比较 ) : 增加 OracleNoSQL 支 持 、CQL 3.0 与 thrift 协 作 。 


Kundera 的 核心 是 kundera-core (或 Kundera Kernel) ， 该 模块 实现 了 JPA 接 口 和 常用 的 核心 功能 。 其 中 功能 包括 : 读 取 环境 变量 和 元 数据 管理 、 解 析 配 置 文件 (persistence.xml) 和 元 数据 、 持 久 
化 上 下 文 管理 、 二 级 索引 管理 、L1 和 L2 缓 存 管理 、 查 询 解 析 、Schema 自 动 生成 、 标 注 处 理 器 、 事 务 管理 和 其 他 功能 。 


2.Kundera 架 构 


户 应 用 通过 与 JPA 接 口交 互 ， 该 结构 由 Kundera 持 久 层 实现 。 在 kundera-core 的 上 面 实现 了 不 同 模块 存储 不 同 数据 结构 。 每 个 模块 有 不 同 的 客户 端 。 具 体 的 架构 如 图 6-17 所 示 。 


HBase MongoDB 


Hibernate Pelops s : 
Driver Driver 


Hibernate Pelops HBase MongoDB 
Client Client Client Client 


Kundera Kundera Kundera Kundera 
RDBMS Cassandra HBase MongoDB 


Kundera Core 


JPA(Java Persistence API) 


User Applications 


图 6-17 Kundera 架 构图 
3.Kundera 基 本 规则 


Kundera 项 目 实现 中 必须 遵循 下 面 的 若干 规则 ， 这 些 规则 中 有 些 规则 可 以 比较 严格 或 者 比较 星 涩 ， 但 整体 上 ， 是 以 标注 为 主 的 规则 还 是 容易 解释 的 。 


实体 类 必须 由 @Entity 标 注 。 
“ 实体 类 必须 由 @Table 标 注 。 标 注 需要 有 name 和 schema 属 性 (在 不 同 的 数据 存储 上 table 和 schema 可 能 有 不 同 的 含义 ) 。 
* Schema 名 称 格 式 : [Schema Name](@[Persistence Unit Name]， 但 如 果 存 储 到 关系 型 数据 库 则 只 需 指 定 schema 名 字 。 

“ 实体 和 典 入 式 类 必须 有 默认 的 无 参数 构造 泡 数 。 

: 每 个 实体 必须 有 一 个 字段 标注 @Id， 该 字段 持久 化 为 Rowkey。 


- 每 个 实体 必须 有 且 只 有 一 个 @Id 标 注 。 


| 主键 和 列 类 型 必须 是 Kundera 支 持 的 数据 类 型 。 


- 所 有 用 @Embedded 和 人 @ElementCollection 标 注 的 字段 存储 在 表 中 ， 例 如 Cassandra 的 超级 字段 和 MongoDB 中 的 内 吝 文 档 。 


- 标注 @Embedded 和 (@ElementCollection 字 段 的 类 必须 含有 类 标注 @Embeddable。 


“关系 实体 ， 含 有 (@OneToOne 和 (@OneToMany 等 标注 的 ， 必 须 是 新 的 实体 类 ， 其 存储 时 使 用 单独 的 表 ， 外 键 由 kundera 维 护 。 


上 面 讲 到 了 主键 和 列 类 型 必须 是 Kundera 所 支持 的 ， 其 支持 的 所 有 的 数据 类 型 如 表 6-13 所 示 。 


Kundera 支 持 的 数据 类 型 
分 类 具体 分 类 具体 分 类 
boolean boolean 
byte 
short 
队 有 类 型 封装 类 弄 character 
DARA NRR - 
integer 
long 
float float 
double double 
Java.util.Date string 
Java.sql.Date object 


日 期 /时 间 类 型 


4.Kundera 常 用 标注 


Java.sql.TimeStamp 


Java.util.Calendar 


Java.sql.Time 


其 他 类 型 


N 


java.math.BigInteger 
java.math.BigDecimal 


java.util. UUID 


上 面 已 经 提 到 了 标注 的 概念 ， 相 信 对 Java 了 解 的 读者 很 容易 看 懂 相 关 的 内 容 ， 如 果 读者 没有 听 说 过 标注 ， 可 以 查看 JDK 5.0 的 介绍 ， 标 注 是 JDK 5.0 的 新 特征 。 目 前 ，Kundera 常 用 的 标注 如 下 : 


- 实体 : javax.persistence.Entity 
“ 表 : javax.persistence. Table 
* ID: javax.petsistence.Id 


< 列 : javax.persistence.Column 


< Fu ik: javax.persistence.Embedded 


“元素 集合 : javax.persistence.ElementCollection 


| RAK: javax.persistence.CollectionTable 


<- 绑 定 表 : javax.persistence. Embeddable 


' 一 对 一 : javax.persistence.OneToOne 


“一 对 多 : javax.persistence.OneToMany 


“ 多 对 一 : javax.persistence.ManyToOne 


: 多 对 多 : javax.persistence.ManyToMany 


- AJ]: javax.persistence.JoinColumn 


不 同 的 数据 存储 方式 对 应 不 同 标注 ， 详 情 如 表 6-14 所 示 。 


表 6-14 Kundera 支 持 的 数据 类 型 


Annotation Cassandra MongoDB 
Column Family . 
Table . Document ( Collection) 
Super Column Family 
Column Column Column 
Embeddable Super Column Column Family Document (embedded in anther document) 


5.Kundera 的 优 缺 点 


Kundera 是 一 个 有 广度 ， 但 是 深度 不 够 的 SQL 引 敬 工具， 其 内 容 涵盖 了 大 部 分 主流 的 NoSQL 数 据 库 支持 ， 但 对 于 HBase 部 分 的 支持 明显 不 够 深入 ， 无 论 从 实现 方法 、 效 率 、API 使 用 的 便捷 性 上 都 不 够 
优秀 。 下 面 详细 阐述 Kundera 的 优 缺 点 ， 如 表 6-15 所 示 。 


表 6-15 ”Kundera 的 优 缺点 


缺 m 
客户 端 只 支持 JPQL 和 Rest 两 种 方式 。 对 于 调试 和 测试 阶段 没有 一 个 命令 行 工 


优点 
e 类 似 关系 型 数据 库 DOM 


层 开 发 规范 ， 对 J2SE 和 具 ， 不 方便 使 用 

J2EE 熟悉 的 用 户 能 很 快 理 JPQL 客户 端 API 使 用 比较 复杂 ， 学习 和 开发 成 本 高 

解 和 应 用 提供 HBase 过 滤器 功能 ，: 类 似 HBase Java Client 代码 ,在 其 上 做 了 一 层 简单 封 
e ZFF Z Fh NoSQL 数据 库 装 。 虽 然 定义 了 一 套 vies 口 ， 但 开发 者 需要 实现 Dao Entities 层 ， 性 能 低 


使 用 对 象 映射 ， 多 一 层 解 析 过 程 ， 且 所 有 操作 都 集中 于 客户 端 ， 这 样 增加 了 客 
户 端 和 服务 器 端 通 的 YJE Jj 

说 明文 档 组 织 不 清晰 ， 且 HBase 部 分 没有 使 用 说 明文 档 

只 实现 最 简单 的 SELECT $I INSERT 功能 


和 RDBMS。 如 果 用 户 同 
时 使 用 多 种 数据 库 ， 使 用 
Kundera 会 降低 开发 成 本 


6.4.2 Kundera 的 客户 端 API 快 速 使 用 


Kundera 无 须 安装 部 署 ， 所 有 操作 都 基于 客户 端 ， 所 以 本 节 无 须 安装 部 署 部 分 ， 接 下 来 直接 介绍 客户 端 使 用 。 


1. 下 载 测试 代码 


为 方便 读者 快速 使 用 ，Kundera HBase 的 测试 代码 已 经 放置 整理 到 GitHub 上 ， 读 者 可 以 直接 在 上 面 下 载 后 解压 即 可 使 用 。 本 项 目 使 用 Twitter 用 户 示例 ， 这 个 示例 在 Kundera 中 以 JUnit 测 试用 例 的 形式 
存在 ， 对 于 开发 人 员 来 说 不 方便 阅读 和 使 用 ， 尤 其 是 Kundera 应 用 于 HBase 的 使 用 不 直观 ，1DE 调 试 使 用 过 程 复杂 。 基 于 上 面 原因 的 考虑 ， 将 示例 修改 后 重新 生成 测试 代码 ， 即 kundera-hbase-example 项 


目 。 


“下载 位 置 https://github.com/mayanhui/kundera-hbase-example/archive/master.zip。 
- 源 代码 位 置 https://github.com/mayanhui/kundera-hbase-example/。 
2. 测 试 代码 所 需 的 环境 
测试 代码 所 需 的 环境 是 : 

* Kundera 2.5 

- HBase 0.94.18. (0.94.18 以 下 版 本 没有 测试 过 ) 

- JDK 1.6 

- Linux 


* Maven 2A Maven 3 


这 里 不 阐述 HBase、JDK 和 Maven 的 安装 部 署 过程 ， 这 些 过 程 都 在 前 面 的 内 容 中 有 详细 介绍 ， 下 载 源 代码 后 解压 缩 到 当前 目录 即 可 。 


3. 导 入 Eclipse 


进入 解压 缩 后 的 kundera-hbase-example 目 录 ， 执 行 下 面 的 命令 ， 将 项 目 转换 为 Eclipse Java 项 目 。 


mvn eclipse: eclipse 


然后 将 转换 后 的 工程 导入 Eclipse 中 ， 导 入 后 的 结果 如 图 6-18 所 示 。 


v 5: kundera-hbase-example 
(& src/test/java 
> «Siisrc/main/java 
= (& src/main/rescurces 
» mi Referenced Libraries 


> mi JRE System Library [jdk1.6.0. 38] 
b i 

& target 

X pom.xml 


图 6-18  kundera-hbase-example7fi E| 22.28 25:44 E] 


4 配置 修改 
对 于 编译 后 的 kundera-hbase-example 项 目 ， 只 需要 修改 ZooKeeper 队 列 值 即 可 成 功 运行 。ZooKeeper 队 列 值 存在 两 个 文件 中 : 
* stc/main/resources/kunderaTest.xml 


* src/ main/resources/kundera-hbase.properties 


对 于 第 一 个 文件 ， 将 下 面 的 属性 修改 为 实际 使 用 的 HBase 集 群 的 ZooKeeper 队 列 值 。 


<property name-"hbase.zookeeper.quorum" value= 
"192.168.56.100, 192.168.56.101"></property> 


对 于 第 二 个 文件 ， 将 下 面 的 属性 同样 修改 为 实际 使 用 的 HBase 集 群 的 ZooKeeper 队 列 值 。 


zookeeper.host = 192.168.56.100, 192.168.56.101 


5. 执 行 


整个 项 目的 入 口 类 是 TwitterHBaseTestjava， 直 接 在 Eclipse 中 运行 该 类 ， 执 行 结果 如 下 : 


Prepare tables http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
Prepare tables done. 

Prepare data http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/0EBPS/Text/... 
Prepare data done. 

Query http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 

Num of twitters for user: 0001 = 4 

Num of twitters for user: 0002 = 4 


通过 HBase 可 以 查看 USER_HBASE 表 的 插入 数据 ， 部 分 数据 展示 如 图 6-19 所 示 。 


hbase(main):018:0» scan 'USER HBASE' 

ROW COLUMN«CELL 

0001 column-USER HBASE:PREFERENCE ID, timestamp-1371729308763, value-P1 

0001 column-USER HBASE:name, timestamp-1371729344557, value-Amresh 

0001 column=USER_HBASE :password, timestamp-1371729344557, value=passwordi 

0001 column-USER HBASE:personal detail id, timnestamp-1371729344557, value=7c1d3ace- 
ebe9-4c62-a462-afd7051346c8 

0001 column-USER HBASE:rel status, timestamnp-1371729344557, value-married 

0001 column-tweetediZo:tweet body, timestamp-1371729344560, value-Here is my first t 
weet 

0081 column-tweetedtfte:tweet id, timnestamp-1371729344568, value-8cbe092a-8918-46d8-b 
d62-3dfcfa42cb72 

0001 column-tweetedtto:tweeted from, timestamp-1371729344550, value-Web 

0001 column=tweeted#1:tweet body, timestamp-1371729344563, value-Second Tweet from 


me 

0001 column-tweetedfti:tweet id, timestamp=1371729344563, value-d5c723ea-cide-43cc-b 
f79-d8d0613b2ad7 

0001 column-tweetedi1:tweeted from, timestamp-1371729344583, value-Mobile 


0001 column=tweeted#2:tweet body, timestamp-1371729344565, value-Here is my first t 
weet 

0001 column=tweeted#? :tweet_id, timestamp=1371729344565, value=b18102a6-bdd2-4a4c-a 
957 -0f 7cb7d89887 

0001 coLumn=tweeted#2 :tweeted_from, timestamp-1371729344585, value-Web 

0001 column=tweeted#3:tweet_body, timestamp-1371729344568, value-Second Tweet from 
me 

0001 column=-tweetedt3:tweet_id, tinestamn-1371729344568, value-Sfs5cedea-7d58-49d2-a 
304-8f10878e03284 

0001 column=tweeted#3:tweeted from, timestamp-1371729344558, value-Mobile 

0002 column-USER, HBASE:PREFERENCE, ID, timestamnp-137172330920898, value-P2 

0002 column=USER_HBASE :name, timestamp=1371729353428, value=5aurabh 

0002 column-USER HBASE:password, timestamp-1371729353428, value-password2 

0002 column-USER HBASE:personal detail id, tinestamp-1371729353428, value-95958a51- 
fb4? -443e -ad?c-7919ebda9? f4 

0002 Column-USER, HBASE:rel, status, timestamp=1371729353428, value-single 

0002 column-tweetedio:tweet body, timestamp-1371729353433, value-5aurabh tweets for 

the first time 


图 6-19 ”USER_HBASE 表 部 分 数据 


通过 HBase Web UI 界面 查看 ， 可 以 看 到 创建 了 三 个 HBase 表 ， 如 图 6-20 所 示 。 


3 table(s) in set. [Details] 


User Table Online Regions. Description 
[EX ERNAL LINKI1 "EXTERNAL LINK', (NAME => 'EXTERNAL LINK") 
[PREFERENCE — [1 'PREFFRENCE', {NAME => 'PREFFRENCE') 


[USER HBASE |1 'USER HBASE', (NAME => 'USER HBASE }, (NAME => 'tweeted40'), (NAME => ‘bweeted#1'}, (NAME => 'tweeted42'), (NAME => tweeted#3'} 


图 6-20 ”通过 示例 代码 创建 的 HBase 表 


l 


下 面 会 从 数据 访问 层 、 实 体 模型 层 、 入 口 类 、 资 源 文 件 4 个 模块 详细 介绍 Kundera 的 代码 组 成 情况 。 


数据 访问 层 Dao 是 业务 层 和 数据 库 层 之 间 的 抽象 层 ， 用 于 封装 SQL 访问 数据 库 ， 表 6-16 展 示 了 数据 访问 层 的 主要 Java 类 及 其 功能 描述 。 


表 6-16 ”数据 访问 层 类 组 成 结构 


Java 类 功能 描述 
SuperDaoHbase 超 类 ， 定 义 创建 管理 器 工厂 方法 
TwitterHbase 定义 增删 改 查 方法 
TwitterServiceHbase 具体 实现 类 ， 查 询 通过 SQL 语句 SELECT 实现 , 插入 直接 用 PERSIST 方法 


实体 模型 层 Entities 用 于 实体 和 表 之 间 的 对 应 关系 的 描述 (使 用 java 标注 ) ， 主 要 Java 类 和 功能 描述 如 表 6-17 所 示 。 


表 6-17 实体 模型 层 类 组 成 结构 


Java 类 
ExternalLinkHBase 
PersonalDetailHbase 
PreferenceHBase 
TweetHbase 
UserHBase 


3. 入 口 类 


入 口 类 TwitterHBaseTest 包 括 建 表 、 测 试 数据 入 库 、 查 询 实现 等 主要 功能 。 下 列 代码 是 类 中 的 主 方法 : 


用 户 个 人 信息 实体 类 
对 应 表 PREFERENCE 
tweet ^ 


对 应 表 USER. HBASE 


功能 描述 
对 应 表 EXTERNAL LINK 


实体 类 


public static void main (String[] args) throws Exception { 
String userldl = "0001"; 
String userId2 = 


"0002"; 


System.out.println ("Prepare tables http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/0EBPS/Text/...") ; 
TwitterServiceHbase twitter = new TwitterServiceHbase ("twibaseTest") ; 


twitter.createEntityManager () ; 
System.out.println ("Prepare tables done.") ; 


System.out.println ("Prepare data http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/...") ; 


TwitterHBaseTest test = new TwitterHBaseTest () ; 
test.setUpInternal ("twibaseTest") ; 
test.addUsers O ; 

test.addAllUserInfo () ; 

test.addTweets () ; 

test.addExternallinks () ; 

System.out.println ("Prepare data done.") ; 


System.out.println ("Query http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/...") ; 


List«TweetHbase» tweetsUserl = twitter.getAllTweets (userId1) ; 
List«TweetHbase» tweetsUser2 = twitter.getAllTweets (userId2) ; 
System.out.println ("Num of twitters for user: "+ 

userIdl + " = " + tweetsUserl.size O ) ; 
System.out.println ("Num of twitters for user: "+ 

userId2 + " = " + tweetsUser2.size () ); 
twitter.closeEntityManager () ; 


该 方法 的 流程 是 : 准备 表 一 准备 数据 一 查询 。 


4 资源 文件 


资源 文件 Resources 包 含 系统 配置 属性 、 数 据 持久 化 属性 、 日 志 输 出 属性 的 配 


文件 名 称 
kunderaTest.xml 
log4j.properties 
persistence.xml 


persistence 2 0.xsd 


6.4.4 Kundera 的 REST 访 问 方式 


Kundera 选 用 REST 访 问 方式 的 目的 是 为 其 他 使 用 Kundera (dEJava) 的 场景 提供 一 种 新 的 访问 方式 。REST 方 式 提供 了 一 个 客户 


户 端 消费 者 层 ， 过 去 几 年 ，REST 方 式 作为 一 种 主要 的 网 络 服务 模型 一 直 备 受 青睐 ， 


1.Kundera-REST 架 构 


在 更 深入 讲解 Kundera-REST 之 前 ， 先 看 图 6-21 所 示 的 Kundera-REST 架 构 。 


， 主 要 文件 名 称 和 功能 描述 如 表 6-18 所 示 。 


表 6-18 主要 资源 文件 列表 


配置 ZooKeeper 信息 
slf4j-log4j 和 slf4j-api 使 用 的 配置 文件 


配置 持久 化 单元 属性 信息 


持久 化 单元 xml schema 


区 别 于 SOAP 和 WSDL 的 复杂 设计 和 使 


NEM 


端 交 互 


x 


i 


层 ， 该 层 使 得 Kundera 的 使 


， 这 也 是 采 


REST 方 式 的 最 了 


TR 


更 加 简单 。 


Kundera-REST 代 表 着 客 


Web Container 


User 
Application 


REST 


Client JPA 


HTTP 


Kundera 


REST 
XML/JSON 


图 6-21  Kundera-REST Z2 4 


Client Extension 
Framework 


DataStore 


Kundera-Core 


介绍 。 


Kundera-REST 使 用 基于 JAX-RS 的 Jersey 实 现 REST 服 务 。 使 用 Kundera-REST 需 要 4 个 配置 步 又， 下面 分 别 详细 


2. 配 置 并 使 用 Kundera REST 模 块 


Kundera-REST 模 块 的 使 用 包含 web.xml 配 置 servlet、kundera-rest 模 块 配置 、HTTP Get 请 求 和 HTTP Post 请 求 等 的 使 


(1) web.xm| 配 置 servlet 


将 下 列 servlet 信 息 添加 到 Web 应 


， 下 面 进行 详细 介绍 。 


属性 依赖 包 ， 并 且 指 定 访问 servlet 路 径 是 /rest。 


的 web.xml 文 件 中 ,将 kundera-rest 中 的 资源 类 作为 jersey 的 


«servlet» 
Xservlet-name»JAX-RS Servlet«/servlet-name» 


«servlet-class» 
com.sun.jersey.spi.container.servlet.ServletContainer 
«/servlet-class» 

Xinit-param» 
Xparam-name»com.sun.jersey.config.property.packages«/param-name» 
«param-value»com.impetus.kundera.rest.resources«/param-value» 

«/init-param» 

X«init-param» 
Xparam-name»com.sun.jersey.config.feature.Redirect«/param-name» 
«param-value»true«/param-value» 

«/init-param» 

«load-on-startup»1«/load-on-startup» 

</servlet> 


<servlet-mapping> 
<servlet-name>JAX-RS Servlet</servlet-name> 


<url-pattern>/rest/*</url-pattern> 
</servlet-mapping> 


(2) kundera-rest 模 块 配置 


Web 应 用 时 
基础 类 。 


URL 格 式 如 下 : 


需要 依赖 kundera-rest 模 块 ， 该 模块 在 Kundera 2.5 的 主 目录 下 ， 需 要 编译 该 模块 ， 然 后 将 kundera-rest-2.5.jar 作 为 Web 应 


的 依赖 。 在 URL 内 部 转化 过 程 中 需要 使 用 kundera-rest 中 的 相关 


http://<host>: «port»/«web-context-url»/«JAX-RS Servlet URL Path»/kundera/api/ 


其 中 ，URL 由 4 部 分 组 成 ， 每 个 部 分 代表 不 同 的 含义 ， 各 组 成 部 分 的 功能 描述 如 表 6-19 所 示 。 


表 6-19 URL 各 组 成 部 分 的 功能 描述 


URL 各 部 分 
<host> 
«port» 
«web-context-url- 


-JAX-RS Servlet URL Path> 


(3) HTTP Get 请 求 


HTTP 的 请 求 方式 之 一 ， 用 于 向 特定 的 资源 发 出 请 求 ， 查 询 所 有 数据 的 URL 如 下 : 


功能 描述 


Kundera 提供 支持 的 Web 应 用 的 主机 地 址 〈 域 名 或 卫 ) 

Web 应 用 监听 的 端口 

Web 上 下 文 URL 

JAX-RS Servlet 的 URL 地址。 在 上 面 的 web.xml 中 ， 该 地 址 的 值 是 /rest 


http://«host»: «port»/«web-context-url»/«JAX-RS Servlet URL Path»/kundera/api/query/«Class Name»/all 


内 部 相关 的 JPA 操 作 如 下 : 


Query query = entityManager.createQuery ("select p from Person p") ; 
return query.getResultList () 


查询 匹配 数据 的 URL 如 下 : 


http://<host>: <port>/<web-context-url>/<JAX-RS Servlet URL Path>/kundera/api/query/jpa/<JPA Query»paraml-valuel&param2-value2&http://www.hzcourse.com/resource/readBook?path-/o 


内 部 相关 的 JPA 操 作 : 


Query query = entityManager.createQuery (jpaQueryString) ; 
query.setParameter ("paraml", "valuel") ; 
query.setParameter ("param2", "value2") ; 

return query.getResultList () ; 


(4) HTTP Post 请 求 


HTTP 的 请 求 方式 之 一 ， 用 于 向 指定 资源 提交 数据 进行 处 理 请 求 (例如 提交 表单 或 者 上 传 文件 ) ， 访 问 的 URL 如 下 : 


http://<host>: «port»/«web-context-url»/«JAX-RS Servlet URL Path»/kundera/api/«Class Name» 


Post 请 求 的 返回 结果 可 以 是 JSON 或 者 XML 格式 ，XML 格 式 的 返回 结果 示例 如 下 : 


<? xml version="1.0" encoding-"UTF-8" standalone-"yes"? > 
<book> 
<isbn>1111111111111</isbn> 
<author>Vijay</author> 
<publication>Willey</publication> 
</book> 


内 部 相关 的 JPA 操 作 : 


entityManager.persist (entityObject) ; 


65 ”分布 式 SQL3 引 警 Lealone 


项 目 作者 对 于 Lealone 的 简介 是 “Lealone 适 用 于 单机 或 分 布 式 环境 的 通用 SQL 引 警 ， 可 用 于 HBase 和 H2 数 据 库 的 PageSstore/MVStore 存 储 引 擎 ”， 从 中 可 以 得 知 三 部 分 信息 ， 首 先 Lealone 是 SQL 引 
擎 ， 其 次 底层 使 用 H2， 最 后 适用 于 HBase 的 SQL 查询 。 


6.5.1 认识 Lealone 


之 前 调研 的 时 候 ，Lealone 的 名 称 还 是 YourBase， 后 来 项 目 作者 将 名 字 改 为 Lealone， 一 个 作者 自 创 的 非常 有 意思 的 词汇 ， 项 目 作者 的 解释 是 这 样 的 : 


“Lealone 是 我 新 造 的 英文 单词 ， 灵 感 来 自 于 在 淘宝 工作 期 间 办 公 虽 上 那些 叫 绿 蔓 的 室内 植物 ， 一 直 想 做 个 以 它 命名 的 项 目 。 绿 蔓 的 拼音 是 lv luo， 与 Lealone 英 文 发 音 有 点 相同 ，Lealone 是 lea+lone 的 组 合 
(lea 草 地 /草原 ，lone 孤 独 的 ) ， 也 算是 现在 的 心境 : 思路 辽阔 但 又 孤独 。 反 过 来 念 更 有 意思 。” 


1.Lealone 的 特性 


对 于 Lealone 的 概念 和 架构 可 以 延伸 出 下 面 的 解释 : 


© 一 个 可 用 于 HBase 的 分 布 式 SQL 引 擎 ; 
| 支持 高 性 能 的 分 布 式 事务 ， 使 用 一 个 非常 新 颖 的 、 基 于 局 部 时 间 戳 的 多 版 本 冲突 与 有 效 性 检测 的 事务 模型 ; 
“ 对 H2 关 系数 据 库 的 改进 和 扩展 ; 


“一 个 纯 Java 的 、 将 HBase 和 RDBMS 融 合 的 数据 库 。 


Lealone 具 有 下 面 的 特性 : 
“ 支持 MySQL、PostgreSQL 的 SQL 语 法 ; 


“ 支持 JDBC 4.0 规 范 ; 


:支持 分 布 式 事务 、 索 引 、 各 种 DDL， 支 持 触发 器 、 自 定义 函数 、 视 图 、Join、 子 查询 、Order By、Group By, RA. 


2.Lealone 的 优 缺 点 


鉴于 Lealone 代 码 侵 入 性 强 ， 笔 者 没有 深入 使 用 ， 仅 在 熟悉 其 将 安装 部 署 、 使 用 流程 后 ， 在 小 规模 的 业务 案例 进行 过 测试 。 但 是 在 使 用 过 程 中 ，Lealone 的 优势 和 劣势 能 够 很 直观 地 体会 到 。Lealone 的 
优点 和 缺点 如 表 6-20 所 示 。 


表 6-20 Lealone 的 优点 和 缺点 


AREE: 


代码 侵入 性 强 。 修 改 了 coprocessor.master 和 regionserver 的 人 口 类 

客户 端 种 类 单一 ， 只 有 JDBC 和 Python 客户 端 ， 并 且 Python 客户 端 不 是 

^l SQL 方式 ， 需 要 使 用 Python 方式 调用 SQL 执行 ， 不够 友好 

Ui exp 有 竺 测试。 从 项 目 作 者 的 更 新 频 度 和 Issue 数量 上 看 ， 项目 不 
够 活跃 ， 使 用 者 少 

文档 = 际 化 不 够 充分 。 只 有 中 文 文档 ， 如 果 添 加 英文 文档 更 容易 让 项 目 
得 到 推广 和 接受 


国内 开源 。 从 支持 国内 IT 行业 开 
源 的 角度 讲 ， 非 常 欣 赏 Lealone 作者 
的 zw. 作为 国内 唯一 一 个 HBase 
3| ^i 项 H, 1E 3 38] f$ Lealone 
T 走 下 去 ， 也 期 望 该 项 目 能 

# 到 更 多 人 认可 


6.5.2 ”Lealone 的 安装 部 署 


本 节 将 介绍 Lealone 的 安装 部 署 过程 ， 分 别 从 环境 需求 、 下 载 、 安 装配 置 等 方面 讲解 。 
1. 环 境 需 3 


Lealone 基 于 Java 语 言 开发 ， 并 且 直 接 对 HBase 源 码 进行 了 修改 ， 所 以 依赖 环境 中 需要 有 JDK 或 者 JRE、HBase 相 关 的 依赖 等 ， 当 前 最 新 版 本 的 依赖 环境 如 下 (这 些 是 官方 给 出 的 版 本 参数 ， 如 果 与 读者 
当前 的 版 本 不 匹配 ， 请 严谨 测试 后 再 使 用 ) 。 


: HBase 0.94.2 或 更 高 (只 支持 0.94 系 列 版 本 ) 
' Hadoop 1.0.4〔 官 方 使 用 ， 笔 者 未 测试 过 1.2.1 版 本 是 否 可 用 ) 
-JDK 1.7 


.Maven2 或 者 更 高 (只 针对 开发 者 ) 


注意 ， 并 不 是 所 有 用 户 都 需要 关注 这 几 项 ， 对 于 使 用 者 来 说 ， 只 需要 关注 前 三 项 ， 对 于 开发 者 ， 需 要 全 部 关注 。 


2. 下 载 JAR 包 


下 载 过 程 非常 简单 ， 直 接 从 Github 上 下 载 相关 JAR 包 即 可 。 当 然 ， 也 可 以 通过 源码 进行 编译 ，Lealone 使 用 Maven 进 行 编译 ， 直 接 使 用 Maven 命 令 进行 编译 ， 这 样 整个 编译 过 程 也 相对 容易 很 多 。 


(1) 直接 下 载 


从 GitHub 上 直接 下 载 最 新 的 依赖 包 (https://github.com/codefollower/Lealone-downloads) ， 目 前 最 新 版 本 : 


* lealone-client-0.12.0-SNAPSHOT.jar 


* lealone-hbase-0.12.0-SNAPSHOT. jar 


* lealone-sq]-0.12.0-5NAPSHOT. jar 


以 上 3 个 JAR 包 是 必需 的 ， 分 别 用 于 客户 端 和 服务 器 端 。 


(2) 源码 构建 
下 载 项 目 源 代码 : 


git clone https: //github.com/codefollower/Lealone.git 


如 果 读者 没有 安装 Git， 可 以 直接 下 载 压 缩 包 后 解压 缩 ， 命 令 是 : 


wget https: //github.com/codefollower/Lealone/archive/master.zip 


进入 下 载 目 录 ， 执 行 Maven 编 译 命令 


mvn clean package assembly: assembly -Dmaven.test.skip-true 


结果 文件 在 target 目 录 下 。 


3. 安 装配 置 


下 载 或 者 编译 完 JAR 包 之 后 ， 接 下 来 就 是 安装 Lealone。 安 装 又 分 为 服务 器 端 安装 和 客户 端 安装 。 其 中 ， 客 户 端的 安装 相对 简单 ， 只 需要 引用 依赖 即 可 。 


(1) HBase 服 务 器 端 
将 以 下 依赖 包 复制 到 所 有 RegionServer 和 Master 的 HBase/lib 目 录 下 : 
- lealone-client-0.12.0-SNAPSHOT.jar 

- lealone-hbase-0.12.0-SNAPSHOT.jar 

- lealone-sq]-0.12.0-SNAPSHOT. jar 


然后 修改 所 有 RegionServer 和 Master 的 hbase-site.xml 文 件 ， 必 须 配置 下 面 的 参数 : 


<property> 


<name>hbase.coprocessor.master.classes</name> 
«value»com.codefollower.lealone.hbase.engine.HBaseMasterObserver«/value» 
«/property» 
«property» 
«name»hbase.regionserver.impl«/name» 
«value»com.codefollower.lealone.hbase.engine.HBaseRegionServer«/value» 
«/property» 


最 后 重启 所 有 RegionServer 和 Master。 


(2) HBase 客 户 端 


客户 端 不 再 使 用 HBase 自 带 的 Client， 使 用 lealone-client-0.12.0-SNAPSHOT.jar， 将 其 放 到 应 用 的 Classpath 即 可 。 


6.5.3 ”通过 JDBC 访 问 Lealone 


Lealone 默 认 提 供 JDBC 方 式 访问 HBase， 访 问 时 只 需 按 JjDBC 的 标准 使 用 方式 即 可 ， 不 用 直接 依赖 Lealone 的 任何 类 。 接 下 来 将 讲解 如 何 创建 JDBC 连 接 以 及 如 何 通 过 JDBC 进 行 增删 改 查 等 操作 。 


1. 创 建 JDBC 连 接 


在 创建 连接 前 ， 需 要 提供 JDBC URL、 用 户 名 和 密码 ， 上 有 具体 连 接 代码 如 下 : 


String url = "jdbc: lealone: tcp: //localhost: 9092/hbasedb"; 
Connection conn = DriverManager.getConnection (url , "sa", ""); 


URL 中 的 jdbc:lealone:tcp 表 示 用 TCP 的 方式 连 到 localhost:9092， 而 hbasedb 是 数据 库 名 ， 且 必须 是 它 。sa 是 用 户 名 ， 密 码 是 空 ， 首 次 访问 数据 库 时 ， 如 果 用 户 名 不 存在 会 自动 创建 它们 。 


Que 无 须 调用 Class.forName ("com.codefollower.lealone.Driver") 加 载 Lealone 的 驱动 类 ， 因 为 Lealone 的 运行 环境 需要 JDK 6 或 更 高 版 本 ， 从 JDK 6 开始 可 自动 加 载 注 册 驱 动 类 。 


建 表 、 删 表 的 操作 代码 如 下 : 


Statement stmt = conn.createStatement () ; 
stmt.executeUpdate ("CREATE TABLE IF NOT EXISTS test (f1 int primary key, f2 long) "2; 
stmt.executeUpdate ("DROP TABLE IF EXISTS test") ; 


增删 改 查 操作 的 代码 如 下 所 示 。 每 个 方法 的 参数 中 使 用 的 都 是 标准 SQL 语法 。 


stmt.executeUpdate ("INSERT INTO test (fl, f2) VALUES (1, 2) ") ， 
stmt.executeUpdate ("DELETE FROM test WHERE fl = 1") ; 
stmt.executeUpdate ("UPDATE test SET f2 = 1"); 

stmt.executeQuery ("SELECT * FROM test") ; 


2. 通 过 JDBC 访 问 Lealone 示 例 


下 面 是 通过 JDBC 访 问 Lealone 的 完整 示例 。 在 该 实例 中 ， 首 先 创建 表 test， 然 后 向 test 表 中 插入 一 条 数据 ， 之 后 更 新 表 test、 查 询 、 删 除 ， 最 后 删除 该 表 ， 是 一 个 集合 了 基本 增删 改 查 操作 的 完整 示例 。 


import java.sql.Connection; 

import java.sql.DriverManager: 

import java.sql.ResultSet; 

import java.sql.Statement; 

public class JDBCExample ( 

public static void main (String[] args) throws Exception ( 
String url = "jdbc: lealone: tcp: //localhost: 9092/hbasedb"; 
Connection conn = DriverManager.getConnection (Curl, "sa", ""); 
Statement stmt = conn.createStatement () ; 
stmt.executeUpdate ("CREATE TABLE IF NOT EXISTS test 
(fl int primary key, f2 long) "); 
stmt.executeUpdate ("INSERT INTO test (fl, f2) VALUES (1, 20 "2; 
stmt.executeUpdate ("UPDATE test SET f2 = 1") ; 
ResultSet rs = stmt.executeQuery ("SELECT * FROM test") ; 
while (rs.next () ) { 
System.out.println ("fl-" + rs.getInt (1) + " f2-" + rs.getLong (2) ) : 
System.out.println O ; 

} 
stmt.executeUpdate ("DELETE FROM test WHERE fl = 1"); 
stmt.executeUpdate ("DROP TABLE IF EXISTS test") ; 


6.5.4 通过 Python 访问 Lealone 


也 可 以 通过 Python 直接 访问 Lealone， 在 此 之 前 ， 首 先 需要 下 载 安装 Python 和 Psycopg 两 个 库 ， 访 问 代码 中 需要 依赖 Psycopg 中 的 类 和 方法 。 
1. 安 装 Python 和 Psycopg 


首先 ， 下 载 Python 安 装 后 最 好 将 Python 的 根 目 录 加 入 PATH 环境 变量 ; 其 次 ， 下 载 在 Windows 平 台中 可 以 直接 将 Psycopg 安 装 到 Python 的 根 目录 下 ; 然后 ， 配 置 Lealone， 将 下 面 的 代码 添加 到 
hbase-site.xm| 文 件 中 : 


<property> 
<name>lealone.pg.server.enable</name> 
<value>true</value> 

</property> 


最 后 ， 再 启动 所 有 RegionServer 和 Master。 


2. 通 过 Python 访问 Lealone 示 例 


使 用 Python 客户 端 访 问 Lealone 是 最 直接 和 简单 的 方式 ， 下 面 的 示例 介绍 了 如 何 通 过 Python 客户 端 连接 和 操作 Lealone。 


rootümaster» python 

Python 2.7.5 (default, May 15 2013, 22: 43: 36) [MSC v.1500 32 bit (Intel) ] on win32 

Type "help", "copyright", "credits" or "license" for more information. 

// 导 入 psycopg2 包 

>>> import psycopg2 

// 默 认 端 口 是 5435， 数 据 库 名 目前 必须 是 hbasedb 

// 如 果 是 第 一 次 执行 connect， 服 务 器 端 会 初始 化 大 量 与 PostgreSQL 相 关 的 pg_catalog， 耗 时 15~20s 

>>> conn = psycopg2.connect (host-'localhost', port=5435, user-'postgres', password-'postgres', database-'hbasedb') 
>>> cur = conn.cursor () 


» 
>>> cur.execute ("CREATE TABLE IF NOT EXISTS test (f1 int primary key, f2 long) ") 


>>> 

>>> cur.execute ("INSERT INTO test (fl, f2) VALUES (1, 2) ") 
>>> 

>>> cur.execute ("SELECT * FROM test") 

>>> 

>>> cur.fetchone () 

(1， 2L) 

>>> 

>>> cur.execute ("UPDATE test SET f2 = 20") 
>>> 

>>> cur.execute ("SELECT * FROM test") 

22» 

>>> cur.fetchone () 

(1, 201) 

>>> 

>>> conn.commit () 

>>> 

>>> cur.close () 

>>> 


6.5.5 ”Lealone 特 有 的 建 表 语 ; 


为 了 支持 HBase 列 族 ，Lealone 扩 展 了 SQL 建 表 语法 ， 建 表 语 法 如 下 : 


CREATE HBASE TABLE [ IF NOT EXISTS ] name 


( ( [SPLIT KEYS] | [OPTIONS] | COLUMN FAMILY ] [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/...] ) 
SPLIT KEYS: 
SPLIT KEYS ((key) [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/...]) 
OPTIONS: 


OPTIONS ((key-value) [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/...]) 
COLUMN FAMILY: 
COLUMN FAMILY cf name [ ( ([OPTIONS] | [columnDefinition]]) [. http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/...] ) ] 


HBASE TABLE 是 动态 表 ， 只 需要 定义 列 族 ， 不 需要 定义 具体 列 和 列 类 型 ，SPLIT KEYS 用 于 指定 预 分 区 的 切割 键 。 


“ 表 级 别 的 OPTIONS 对 应 org.apache.hadoop.hbase.HTableDescriptor 参 数 选项 ; 
-+ COLUMN FAMILY 级 别 的 OPTIONS 对 应 org:apache.hadoop.hbase.HColumnDescriptor 参 数 选项 o 


建 表示 例如 下 : 


CREATE HBASE TABLE IF NOT EXISTS test € 
SPLIT KEYS ('1000', "2000 
COLUMN FAMILY cfl ( 
OPTIONS (MIN VERSIONS-2, KEEP DELETED CELLS-true) , 
flint, u B = 
f2 varchar, 
f3 date 
E 
COLUMN FAMILY cf2 ( 
OPTIONS (MIN_VERSIONS=2, KEEP DELETED CELLS=true) 
Jy 
COLUMN FAMILY cf3 


表 test 定 义 了 一 个 SPLIT KEYS， 这 样 会 预 创建 三 个 分 区 ， 分 隔 点 是 '1000' 和 '2000'， 同 时 还 定义 了 三 个 列 族 。 


更 多 的 SQL 语法 、 支 持 函 数 、 数 据 类 型 分 别 参见 H2 官 方 页 


E 


* http:/ /www.h2database.com/html/ grammar.html 
* http:/ /www.h2database.com/html/functions.html 


* http:/ /www.h2database.com/html/datatypes.html 


66 本章 小 结 


本 章 主要 介绍 了 几 种 不 同 的 HBase 的 SQL 引 擎 解决 方案 ， 重 点 从 使 用 角度 讲解 了 每 种 实现 方案 的 原理 架构 、 功 能 实现 、 安 装 部 署 等 内 容 ， 在 每 节 的 最 后 包含 对 该 方法 优 缺 点 的 介绍 ， 以 方便 读者 理解 和 


HBase 的 SQL 化 查询 是 贯穿 在 整个 HBase 使 用 中 的 非常 重要 的 需求 ， 有 使 用 经 验 的 读者 应 该 对 这 点 深 有 体验 ， 本 章 对 已 经 具备 一 些 HBase 基 础 ， 准 备 使 用 或 者 已 经 使 用 的 读者 都 有 很 好 的 借鉴 和 指导 意 
X, 当然， 更 多 业务 相关 的 内 容 没 有 在 本 章 阐述 ， 留 给 读者 发 挥 的 空间 。 


HBase 整 合 SQL 将 是 一 个 长 期 的 研发 方向 ， 如 果 读 者 对 SQL3 引 擎 层 的 实现 已 经 有 深入 理解 和 一 些 比 较 成 熟 的 想法 ， 可 以 动手 实现 适合 自身 业务 需求 的 工具 ， 如 果 同 时 也 能 为 开源 事业 做 一 些 贡 献 ， 那 就 
更 完美 了 。 


第 7 章 “构建 音乐 站 用 户 属性 库 


本 章 将 讲解 如 何 基于 HBase 构 建 音乐 站 用 户 属性 库 系统 ， 从 音乐 站 业务 和 数据 特性 开始 ， 将 重点 介绍 项 目 需求 、 概 要 设计 和 各 模块 详细 设计 。 现 在 HBase 已 经 在 互联 网 行业 开始 应 用 ， 其 中 具有 代表 性 
的 是 音频 和 视频 领域 。 这 两 个 行业 的 知名 企业 一 般 都 拥有 超过 亿 级 的 用 户 ， 每 天 TB 级 别 的 访问 日 志 数 据 ， 同 时 对 于 用 户 属性 分 析 和 行为 分 析 的 需求 也 很 迫切 ， 而 且 会 包含 部 分 对 随机 读 写 效率 ( 低 延 时 ) 要 
求 比较 高 的 应 用 ， 此 时 ，HBase 作 为 一 个 能 够 提供 在 海量 数据 前 提 下 读 写 效率 稳定 的 数据 库 ， 成 为 这 两 个 行业 技术 选 型 的 候选 之 一 。 


本 章 通过 剖析 实际 行业 案例 ， 从 需求 、 设 计 、 实 现 等 角度 详细 阐述 HBase 如 何 应 用 于 音频 领域 ， 借 此 抛砖引玉 ， 使 读者 可 以 延伸 到 其 他 熟悉 的 行业 领域 ， 根 据 业务 需求 差异 ， 在 使 用 细节 上 会 有 一 些 差 
异 ， 但 如 果 读者 可 以 深入 进去 ， 个 别 细节 并 不 会 妨碍 使 用 。 


7.1 案例 背景 


本 节 将 介绍 大 型 音乐 站 构建 属性 库 系 统 的 背景 知识 ， 包 括 音乐 站 介绍 、 数 据 特 点 、 项 目 需求 和 名 词 解释 等 。 


7.1.1 音乐 站 


音乐 已 经 成 为 人 们 生活 中 不 可 或 缺 的 组 成 部 分 ， 虽 然 现代 生活 节奏 较 快 ， 人 们 已 经 很 少 有 整 段 整 段 的 时 间 去 享受 音乐 的 魅力 ， 但 是 音乐 仍然 是 碎片 时 间 中 使 用 占 比 很 高 的 娱乐 方式 ， 例 如 漫步 在 路 上 ， 
乘坐 公交 、 地 铁 ， 工 作 的 间歇 等 。 现 在 网 络 的 普及 使 得 获取 音乐 更 容易 、 更 便捷 ， 这 又 促进 了 音乐 的 传播 ， 现 在 比较 热门 的 音乐 站 和 音乐 APP 有 : 酮 我 音乐 、 酷 狗 音 乐 、 百 度 音 乐 、QQ 音 乐 、 豆 瓣 FM、 一 
听 音 乐 、 虾 米 音乐 等 。 


随 着 计算 机 和 移动 电子 设备 慢 慢 成 为 人 们 工作 或 生活 的 必需 品 ， 音 乐 站 针对 在 线 和 无 线 端的 应 用 内 容 非 常 丰富 ， 一 般 都 融合 了 歌曲 和 MV 搜 索 、 在 线 播放 、 同 步 歌 词 等 核心 功能 ， 支 持 一 键 即 播 、 海 量 
的 歌词 库 、 图 片 欣 赏 等 特性 。 下 面具 体 描述 一 下 音乐 站 的 特性 ， 帮 助 读者 理解 这 些 特性 ， 为 后 面 提炼 需求 打下 基础 。 


' 百 万 海量 歌曲 、MV 资源 。 


“ 每 周 更 新 百 张 音乐 专辑 。 


“ 千 万 或 亿 量 级 用 户 (针对 大 型 音乐 站 ) o 


“一 点 即 播 的 视听 享受 ， 将 网 络 资源 变 成 用 户 的 资源 。 


:支持 歌曲 下 载 ， 下 载 迅速 、 便 利 。 


“ 海量 歌词 库 支持 ( 百 万 量 级 ) ， 歌 词 自动 搜索 同步 显示 ， 完 美 配合 。 


“ 资源 组 织 形式 灵活 多 样 ， 各 大 榜 单 、 新 专辑 、 按 歌手 分 类 歌曲 等 。 


“ 搜索 便捷 ， 一 般 支 持 文字 搜索 。 


“ 绚丽 的 歌手 明星 秀 或 者 专辑 封面 秀 ， 视 觉 感受 良好 。 


:软件 小 巧 ， 易 操作 。 


“ 歌曲 免费 播放 、 下 载 。 


“ 同时 具备 PC 和 移动 端 应 用 软件 。 


从 上 面 的 特性 和 日 常 使 用 音乐 站 的 体验 中 ， 可 以 总 结 出 音乐 站 的 业务 特性 分 为 在 线 、 无 线 和 本 地 三 大 部 分 ， 其 中 ， 在 线 部 分 提供 Web 页 面 的 访问 方式 ， 所 有 资源 通过 网 站 的 形式 对 外 提供 服务 ， 无 线 部 
分 是 指使 用 手机 APP 客 户 端的 相关 业务 ， 本 地 部 分 是 指 PC 安装 音乐 软件 ， 安 装 后 使 用 音乐 软件 播放 在 线 歌曲 或 者 本 地 歌曲 。 这 是 业内 音乐 行业 最 普遍 的 业务 线 划 分 方式 。 


读者 可 以 从 上 面 的 介绍 中 了 解 音乐 站 的 业务 特点 ， 业 务 和 用 户 特性 决定 了 数据 特性 ， 其 特性 如 下 : 


: 物料 数据 : 包含 音乐 或 MV 源 文件 、 描 述 信息 (属性 信息 ) 。 
“ 用 户 属性 信息 : 主要 指 用 户 注册 信息 。 
“ 用 户 行为 信息 : 用 户 行为 信息 包含 很 多 种 类 ， 主 要 的 类 别 如 下 所 示 : 
“ 报 活 记录 : 用 户 启动 播放 软件 上 报 服务 器 信息 ， 主 要 对 无 线 和 本 地 业务 线 。 
“ 播放 记录 : 用 户 点 击 播放 音乐 或 MV 的 信息 。 
“点击 记 录 : 用 户 点 击 信息 〈 一 般 不 包含 播放 类 信息 ) 。 
“ 搜索 记录 : 用 户 使 用 音乐 站 内 搜索 功能 查找 音乐 或 MV 的 信息 。 
“下载 记录 : 用 户 下 载 音乐 或 MV 的 信息 。 


“ 用 户 标记 记录 : 主要 包含 喜欢 、 不 喜欢 、 收 藏 等 。 


7.1.2 需求 概述 


建立 用 户 、 音 乐 两 个 属性 库 及 后 台 查 询 系统 ， 它 们 将 为 推荐 系统 提供 最 基本 的 数据 积累 ， 也 为 以 后 对 这 些 数据 进行 深度 挖 气 、 分 析 ， 给 用 户 带 来 更 好 的 推荐 体验 提供 帮助 。 同 时 还 能 够 满足 其 他 业务 对 
户 精 分 的 扩展 需求 ， 为 各 个 产品 线 提供 个 性 化 支持 。 


可 以 提供 支持 的 业务 方向 包含 在 线 方向 、 广 告 方向 和 数据 方向 。 


1. 在 线 方向 


在 线 方向 具有 如 下 特性 : 


“ 提供 海量 数据 搜索 支持 。 


< 优化 推荐 算法 。 


“ 提供 实时 计算 底层 支持 : 实时 计算 分 业务 方向 和 数据 分 析 方向 。 


o 支持 菜 些 具有 特殊 需求 的 项 目 。 


2. 广 告 方向 


广告 方向 具有 如 下 特性 : 


“ 精准 广告 投放 。 在 用 户 组 中 增加 人 和 群 属性 ， 仅 针对 特定 人 群 投放 特定 广告 ， 关 键 问题 是 定位 是 否 准 确 。 如 果 引 入 用 户 属 性 ， 可 以 在 很 大 程度 上 解决 该 问题 。 
“ 实时 广告 展示 统计 。 根 据 实时 请 求 ， 分 析 广告 展示 和 点 击 量 。 


3 数据 方向 


数据 方向 具有 如 下 特性 : 
“ 用 户 属性 多 维度 分 析 ， 为 产品 人 员 提 供 更 准确 的 决策 支持 。 


: 为 数据 产品 提供 底层 支持 ， 直 接 服务 用 户 或 者 公司 运营 人 员 。 


7.1.3 ”需求 范围 和 系统 边界 


需求 应 该 包含 范围 和 边界 的 描述 ， 不 论 这 个 系统 是 产品 还 是 项 目 。 需 求 范围 是 产品 或 项 目的 内 部 ， 而 边界 是 内 部 和 外 部 的 交界 。 所 谓 边界 ， 也 就 是 将 这 个 系统 看 成 一 个 和 外 界 进行 交互 的 黑 盒子 。 根 据 
经 验 ， 需 求 范围 的 描述 相对 简单 ， 但 定义 系统 边界 不 是 一 件 容易 的 事情 ， 有 些 情 况 下 很 难 判断 和 定义 。 造 成 这 种 困难 有 几 个 原因 ， 一 是 没有 内 外 的 概念 ， 不 知道 需求 描述 的 是 什么 ;二 是 知道 内 外 ， 然 而 对 
于 边界 的 定义 ， 没 有 足够 的 词语 描述 清楚 ， 只 能 用 对 系统 内 部 设计 来 代替 。 下 面 的 内 容 中 前 5 个 部 分 定义 需求 范围 ， 最 后 一 个 部 分 定义 系统 边界 。 


1. 建 立 用 户 行为 库 


必 集 所 有 用 户 行为 相关 的 记录 ， 包 含 点 击 、 浏 览 、 播 放 、 搜 索 、 用 户 喜欢 、 不 喜欢 等 信息 ， 并 且 清 洗 、 整 合 所 有 半 结 构 化 数据 成 结构 化 数据 。 


2. 建 立 用 户 属性 库 


户 固有 属性 信息 ， 包 含 注 册 用 户 信息 。 其 中 注册 用 户 信息 主要 包含 性 别 、 年 龄 、 职 业 、 地 域 、 邮 箱 等 。 


该 部 分 信息 用 于 精 分 用 户 ， 利 用 各 种 属性 将 用 户 进行 多 维度 归 类 ， 为 精准 广告 和 精准 推荐 提供 基层 数据 支撑 。 


3 .建立 音乐 标签 库 


分 类 存储 音乐 的 标签 信息 ， 包 含 音 乐 分 类 、 自 有 标签 (音乐 ) 、 人 工 标签 和 智能 标签 等 。 其 中 ， 自 有 标签 是 音乐 本 身 已 经 包含 的 标签 ， 在 描述 信息 里 面 ， 人 工 标签 是 编辑 人 员 手 工 加 入 的 标签 ; 智能 标 
签 是 通过 自然 语言 处 理 和 分 类 、 聚 类 技术 生成 的 标签 。 音 乐 标签 库 是 十 分 重要 的 基础 数据 ， 用 于 推荐 和 用 户 分 类 。 


4 .建立 后 台 查 询 系统 


支持 查询 组 合 维度 下 的 数据 查询 、 统 计 和 展示 。 提 供用 户 属性 查询 、 标 签 查询 、 用 户 行为 信息 查询 ， 以 及 这 些 查询 的 反 向 查询 等 。 


5. 相 关 项 目 接 | 


支持 推荐 、 广 告 和 实时 系统 的 数据 收集 和 同步 ， 并 且 为 这 些 方向 的 项 目 提供 API 支 持 。 


6. 系 统 边 界 


构建 音乐 站 用 户 属性 库 系 统 旨 在 为 相关 产品 和 研发 人 员 提供 用 户 属 性 和 行为 信息 的 唯一 平台 ， 提 供 便捷 API 和 界面 查询 ， 保 证 海量 数据 下 的 查询 和 插入 性 能 在 一 定 水 平 范围 ， 保 证 高 并 发 范围 性 能 在 一 定 
水 平 范围 。 


系统 包含 HBase 存 储 集群 、 后 台 管 理 系 统 、 批 量 加 载 、 二 级 索引 等 模块 ， 不 包含 SQL 引 擎 层 、 事 务 性 索引 、HBase 性 能 优化 等 。 


系统 不 包括 服务 运营 、 前 端 开发 、 运 维 等 人 员 。 


7.1.4 需求 详 述 


根据 上 面 所 介绍 的 需求 范围 ， 本 小 节 将 详细 介绍 构建 音乐 站 属性 库 的 详细 需求 ， 读 者 可 以 根据 经 验 选 择 性 阅读 本 节 ， 对 于 了 解 音乐 行业 业务 逻辑 的 可 以 快速 阅读 本 节 ， 对 于 其 他 行业 或 者 没有 行业 经 验 
的 学 生 ， 可 以 细致 阅读 本 节 。 经 过 本 节 的 阅读 ， 读 者 可 以 全 面 了 解 项 目的 需求 细节 ， 并 且 对 音乐 行业 的 业务 有 更 加 深入 的 理解 。 


1. 用 户 行为 库 


“ 用 户 播放 记录 : 播放 占 比 10% 及 以 上 。 播 放 占 比 指 的 是 用 户 播放 音乐 时 长 占 总 音乐 时 长 的 百分比 。 使 用 该 阅 值 进行 切 分 的 目的 是 过 小 部 分 垃圾 数据 ， 垃 圾 数据 指 的 是 误 操 作 上 点击、 点 击 后 不 感 兴趣 的 
记录 信息 。 将 这 部 分 数据 清洗 出 去 既 保 证 了 数据 质量 ， 又 减少 了 数据 总 量 ， 有 助 于 提高 计算 效率 (实时 ) 。 


“ 用 户 点 击 宏观 分 类 : 根据 用 户 播放 记录 、 点 击 记录 ， 分 析 用 户 所 对 应 的 宏观 分 类 标签 (每 天 更 新 ) 。 
“ 用 户 喜欢 、 不 喜欢 的 点 击 记录 : 记录 用 户 喜欢 和 不 喜欢 的 点 击 信息 ， 该 部 分 数据 存在 于 点 击 日 志 中 ， 这 两 种 信息 具有 可 删除 操作 属性 ， 所 以 入 库 需 要 实时 操作 (实时 ) 。 
“ 用 户 评分 : 记录 用 户 打 分 结果 ， 评 分 范围 为 1~10 分 ， 用 户 根据 喜好 给 每 首 音 乐 进行 打分 的 数据 ， 该 数据 也 存在 于 点 击 日 志 中 (每 天 更 新 ) 。 


“用户 搜 索 记录 : 用 户 通过 搜索 框 搜 索 音乐 的 信息 ， 就 是 用 户 输入 的 搜索 关键 词 ， 该 部 分 数据 在 搜索 日 志 中 。 由 于 搜索 内 容 噪声 数据 很 多 ， 需 要 去 噪 后 才能 入 库 ， 对 于 去 噪 规则 需要 经 过 大 量 的 数据 统 
计 才 能 确定 ， 并 且 该 部 分 需要 定期 进行 人 工 审查 以 确保 质量 (每 天 更 新 ) 。 


“ 用 户 下 载 记录 : 用 户 下 载 音 乐 信息 ， 该 部 分 数据 在 下 载 日 志 中 (每 天 更 新 ) 。 


“ 用 户 购买 记录 : VIP 用 户 即 付费 用 户 会 发 生 购买 行为 ， 这 部 分 购买 行为 不 是 指 充值 或 者 申请 成 为 VIP 的 行为 ， 而 是 指 通 过 付费 账户 进行 音乐 下 载 ， 并 且 发 生 了 付费 行为 的 记录 信息 。 该 部 分 数据 存放 在 
购买 记录 中 ， 一 般 用 户 的 购买 都 是 针对 付费 音乐 ， 或 者 高 品质 音乐 ， 以 及 推广 音乐 等 ， 当 然 这 三 者 之 间 存 在 交集 (每 天 更 新 ) 。 


“ 用 户 分 享 记录 : 用 户 将 音乐 分 享 到 其 他 媒体 的 信息 ， 例 如 分 享 到 微 博 、 微 信 、 空 间 等 (每 天 更 新 ) 。 


2. 用 户 属性 库 


(1) 基本 维度 


基本 维度 是 指 用 户 的 自然 属性 ， 下 面具 体 介绍 。 


:性别 ， 最 常见 的 值 就 是 男 、 女 。 


:年龄 ， 用 户 系 统 根据 用 户 填写 的 生日 转化 成 具体 的 数值 ， 具 体 年 龄 段 划分 : 10 岁 以 下 、11~20 岁 、21~30 岁 、31~40 岁 、41~50 岁 和 50 岁 以 上 。 


“ 所 在 地 区 ， 指 用 户 的 所 在 地 域 ， 常 用 值 有 : 省 、 市 、 区 等 。 


“ 职业 ， 指 用 户 的 职业 分 类 ， 由 于 职业 分 类 非常 多 ， 这 里 不 会 列举 全 部 ， 只 取 部 分 分 类 : 计算 机 /互联 网 /通信 /电子 、 银 行 /保险 /证 券 /基金 /投资 、 贸 易 /消费 /制造 /营运 、 制 药 /医疗 /保健 /美容 、 咨 
询 / 财 会 /法 律 、 广 告 /媒体 、 房 地 产 /建筑 、 教 育 /培训 、 服 务 业 、 物 流 / 和 运输、 能源/ 原材料、 学生、 政府 / 非 盈利 机 构 、 自 由 职业 、 军 人 人、 商人、 已 退休 、 待 业 和 管理 人 员 等 。 


. 月 收入 ， 指 用 户 每 月 收入 的 等 级 划分 ， 具 体 等 级 有 : 1000 元 以 下 、1000~1999 元 、2000~2999 元 、3000~4999 元 、5000~7999 元 、8000~9999 元 、10000~14999 元 、15000~19999 元 和 20000 以 上 等 。 
“学历 ， 指 用 户 的 受 教育 程度 ， 具 体 值 有 : 小 学 及 以 下 、 初 中 、 中 专 、 职 高 、 高 中 、 大 专 、 本 科 、 硕 士 、MBA、 博 士 和 博士 后 等 。 
“ 婚姻 状况 ， 指 用 户 结婚 与 否 ， 值 只 有 两 个 : 未 婚 、 已 婚 。 


(2) 音乐 维度 


音乐 维度 是 指 用 户 与 音乐 属性 库 的 标签 之 间 的 关联 关系 。 具 体 由 下 面 两 部 分 组 成 : 


“ 从 用 户 注册 信息 获取 (喜欢 的 音乐 类 型 、 风 格 、 地 域 等 ) 。 

“ 从 用 户 行为 库 中 分 析 得 到 用 户 的 音乐 基因 : 喜欢 的 音乐 分 类 、 音 乐风 格 、 音 乐 地 域 、 音 乐 专题 。 

(3) 商业 维度 

“ 兴趣 爱好 : 指 个 人 用 户 的 兴趣 点 ， 例 如 读书 、 旅 游 、 美 食 、 网 购 、 唱 歌 、 看 电影 、 网 游 、 棋 牌 、 台 球 、 时 尚 、 美 容 、 汽 车、 运动 和 数码 等 。 


“ 广告 标签 : 指 广告 的 标签 类 型 ， 例 如 游戏 、 彩 票 、 女 装 、 茶 酒 、 药 品 、 保 险 、 房 产 、 电 脑 、 保 健 食 品 、 日 化 用 品 、 美 容 /化 妆 、 运 动 /户外 、 餐 饮 /娱乐 、 汽 车 /汽车 美容 和 旅游 /酒店 /机 票 等 。 


(4) 其 他 维度 


个 性 标签 : 指 个 人 用 户 的 非常 前 卫 的 标签 ， 例 如 90 后 、 腐 女 、 宅 男 、 女 生 聚 会 和 男生 聚会 等 。 


3. 音 乐 标签 库 


音乐 是 可 以 分 类 的 ,每 种 音乐 都 有 自己 独特 的 属性 ， 例 如 《 酒 干 倘 卖 无 》 这 首 歌 是 苏芮 唱 的 流行 音乐 ， 也 是 经 典 老 歌 曲 ，80 后 基本 上 都 听 过 这 首 歌 。 苏 芮 、 流 行 、 经 典 老 歌 、80 后 等 都 可 以 作为 《 酒 干 
倘 卖 无 》 的 标签 。 


(1) 标签 组 


标签 组 是 一 级 标签 ， 每 个 标签 组 又 划分 为 多 个 标签 ， 具 体 到 每 个 标签 才能 够 赋 给 单 首 音 乐 歌曲 。 在 下 一 小 节 “ 标 签 ”中 会 详细 介绍 每 个 标签 组 所 包含 的 标签 。 音 乐 常用 的 标签 组 有 : 地 域 、 语 言 、 流 
派 、 曲 风 、 场 景 、 歌 手 、 心 情 、 热 门 、 获 奖 等 。 


(2) 标签 

本 节 将 详细 介绍 每 个 标签 组 所 包含 的 标签 。 

“地域: 指 某 首 音 乐 的 所 属地 域 ， 具 体 地 域 包含 : 内 地 、 欧 美 、 港 台 、 上 日 韩 、 印 度 、 俄 罗斯 、 新 加 坡 和 马来西亚 等 。 
“语言: 指 菜 首 音乐 的 语言 类 型 ， 具 体 语言 类 型 有 国语 、 鼻 语 、 闵 南 语 、 韩 语 、 英 语 、 法 语 、 俄 语 、 小 语种 和 日 语 等 。 


' 流派 : 流派 是 指 学 术 、 文 化 艺术 等 方面 有 独特 风格 的 派别 。 这 里 的 流派 单 指 音乐 流派 。 音 乐 流派 划分 如 下 : 流行 、 摇 滚 、 乡 村 、R&B、 嘲 哈 、 电 子 、 纯 音乐 、 苗 士 、 古 典 、 民 谣 、 独 立 、 人 金属 、 童 谣 


-HA 曲 风 即 歌曲 风格 ， 是 指 音 乐 作 品 在 整体 上 呈现 出 的 具有 代表 性 的 独特 面貌 。 曲 风 包 含 : 经 典 老 歌 、 网 络 流行 、 佛 乐 、 胎 教育 乐 、 流 行 、DJ、 古 典 音乐 、 钢 琴 、 和 军营 歌曲 、 民 谣 、 演 唱 会 、 萨 克 
斯 、 民 歌 、 韩 国 影视 歌曲 、 有 上 声 读物 、 古 竺 、R&B 和 发 烧 音 乐 等 。 


: 场景 : 场景 包含 : 酒吧 、 咖 啡 厅 、 分 手 、 校 园 、 夜 店 、 婚 礼 、 运 动 乐 、 情 歌 、 对 喝 、 汽 车 、 音 乐 等 。 

“ 歌手 : 歌手 标签 包含 : 华语 女 歌 手 、 华 语 男 歌 手 、 华 语 组 合 、 欧 美女 歌手 、 欧 美男 歌手 、 欧 美 组 合 、 韩 国 、 日 本 、 影 视 和 其 他 。 

“ 心情: 心情 是 指 听众 欣赏 歌曲 的 感受 。 包 含 想 吴 、 寂 窒 、 忧 伤 、 安 静 、 浪 漫 、 激 情 、 励 志 、 感 动 、 开 心 、 幸 福 、 难 过 、 甜 蜜 和 思念 等 。 

“ 热门 : 是 指 符合 歌曲 特性 的 一 些 热门 标签 ， 例 如 : 中 国 风 、80 后 、 华 语 、 网 络 、90 后 、 手 曲 、 经 典 、 光 棍 节 、DJ 热 碟 、 小 清新 、70 后 、 钢 琴 和 中 国 好 声音 等 。 


“获奖: 是 指 某 音乐 获奖 的 情况 。 音 乐 奖项 包含 : 格 菜 美音 乐 奖 、 蒙 特 卡 罗 世 界 音乐 奖 、 全 英 音 乐 大 奖 、 朱 诺 大 奖 、 钻 石 奖 、 水 星 音乐 奖 、HITO 流 行 音乐 奖 、CMA 乡 村 年 终 奖 、Bilpoard 音 乐 大 奖 、 
MTV 亚 洲 音 乐 大 奖 、MTV 欧 洲 音 乐 奖 、 全 美音 乐 奖 、 北 京 流行 音乐 典礼 、 全 球 华 语 排行 榜 、TVB8 人 金曲 礼 、 无 线 音乐 颁奖 典礼 、CCTV-MTV 年 度 盛典 和 台湾 金曲 奖 等 。 


其 中 ， 标 签 与 标签 组 的 关系 为 多 对 多 的 关系 。 

(3) 数据 来 源 

音乐 标签 库 的 数据 来 源 主要 包括 三 种 途径 : 

“ 原 有 标签 : 音乐 描述 信息 自 带 标签 属性 ， 大 部 分 是 简单 宏观 分 类 。 

“ 外 网 抓 取 : 可 以 从 其 他 知名 音乐 站 、 导 航 站 抓 取 部 分 可 用 标签 ， 抓 取 前 需要 验证 标签 质量 。 
: 人 工 编辑 : 人 工 方式 对 标签 进行 新 建 、 编 辑 和 删除 等 操作 。 


4 .后 台 查 询 系统 


后 台 查 询 系统 主要 用 于 验证 数据 准确 性 ， 人 工 维护 数据 和 支持 开发 测试 ， 接 下 来 分 别 介绍 其 所 包含 的 主要 功能 。 


(1) 查询 用 户 信息 


千 查 询 菜 个 用 户 的 所 有 相关 音乐 《用户 看 过 、 表 态 过 、 购 买 过 、 


(X 


“ 支 
“ 以 上 查询 得 出 的 UID 可 以 指向 该 用 户 的 个 人 属性 页 面 。 

- 输入 UID 输 出 最 相关 的 TopN 个 音乐 标签 。 输 入 : APUD; 输出 : TopN 音 乐 标签 。 
(2) 查询 音乐 信息 

“ 支持 查询 一 个 音乐 标签 对 应 的 所 有 音乐 。 

“ 支持 通过 多 个 音乐 标签 查询 音乐 。 

“ 支持 通过 音乐 ID 查询 相关 音乐 信息 。 

(3) 维护 标签 

. 对 标签 组 的 增 、 删 、 


改 、 查 。 


“ 对 标签 的 增 、 删 、 改 、 查 。 


“ 对 标签 组 下 所 有 标签 的 增 、 删 、 改 、 查 。 
5. 系 统 监控 需求 
监控 功能 项 目 不 可 缺少 的 一 部 分 ， 对 于 构建 音乐 站 用 户 属性 库 的 监控 包含 两 大 部 分 : 


: 日 志 数据 导入 监控 : 对 日 志 导 入 程序 进行 监控 ， 包 含 播放 、 点 击 、 搜 索 、 下 载 、 分 享 、 


“ 用 户 属性 校 验 。 每 天 抽检 部 分 用 户 的 固有 属性 和 用 户 中 心 是 否 一 致 ， 只 做 一 致 性 校 验 。 


“ 抓 取 程 序 监控 。 对 抓 取 结 果 进 行 统计 展示 ， 比 对 入 库 数 据 和 抓 取 数 据 的 差异 。 


7.1.5 ”名 词 解释 


- UID: 用 户 Unique ID, 代表 用 户 唯一 性 的 ID。 

" UserID: 注册 用 户 独 立 ID。 

“MID: MusicID， 代 表 音 乐 信息 唯一 性 的 ID。 

: TIMESTAMP: UID 访 问 Movie ID 的 访问 时 间 戳 。 


“TID: 标签 ID。 


“用户 基础 库 : 基于 用 户 基础 播放 记录 ， 通 过 数据 挖 据 技 术 ， 推 荐 、 猜 测 出 用 户 的 年 龄 、 


竺 查询 喜欢 某 个 音乐 标签 的 所 有 用 户 、 独 立 用 户 数 、 用 户 的 地 域 分 布 、 男 女 分 布 、 职 业 分 布 。 输 入 : 用 户 标签 ID; 输出: 用 户 UID、 独 立 用 户 数 、 用 户 的 地 域 分 布 、 男 女 分 布 、 


竺 查询 具有 某 音 乐 基 因 属 性 的 用 户 列表 。 输 入 : 一 个 或 者 多 个 音乐 基因 数据 项 ; 输出 : UID 列 表 。 


购买 等 日 志 监控 ， 


随机 抽取 用 户 UID 


下 载 过 的 音乐 ) 。 输 入 : 用 户 UID; 输出 : 音乐 ID 列表 。 


竺 查询 就 有 某 种 商业 属性 的 UID 列 表 ， 比 如 游戏 用 户 的 UID 列 表 。 输 入 : 商业 属性 名 称 ; 输出 : UID 列 表 。 


Wd 某 个 地 域 的 、 某 个 年 龄 段 的 用 户 UID ， 独 立 用 户 数 。 输 入 : 地 域名 称 或 者 年 龄 段 范围 ; 输出 : UID 列 表 。 


给 出 监控 结果 列表 和 曲线 。 


， 比 对 HBase 和 用 户 中 心 的 用 户 属性 信息 之 间 的 差异 。 


性 别 等 用 户 基础 信息 。 


息 
i 


:用户 商业 属性 库 : 基于 用 户 基础 播放 记录 ， 通 过 数据 挖掘 技术 ， 推 算 、 猜 测 出 用 户 的 商业 属性 ， 如 : 游戏 、 购 物 等 商业 信息 。 


* PC: Personal Computer， 个 人 电脑 。 
. APP: Application， 应 用 (本 章节 指 移动 端 应 用 程序 ) 。 


: 报 活 : 安装 软件 启动 后 ， 向 服务 器 端 汇报 软件 启动 信息 的 动作 。 


7.2 ”概要 设计 


本 节 会 将 上 面 提 到 的 需求 抽象 为 软件 结构 和 数据 结构 ， 按 照 需求 进行 模块 划分 ， 建 立 模块 的 


和 系统 流程 四 个 部 分 。 


7.2.1 


设计 目标 
- 通过 对 用 户 行为 收集 、 整 理 、 挖 据 ， 建 立 用 户 行为 库 。 
* 构建 用 户 属性 库 ， 该 库 包含 用 户 的 基本 属性 。 
-提供 推荐 、 广 告 等 业务 需要 的 标准 API。 


“ 实现 后 台 查 询 系统 ， 服 务 产品 、 测 试 人 员 。 


7.2.2 ”数据 规模 假设 


屋 次 结构 及 调 


内 容 涵盖 设计 目标 、 数 据 规模 假设 、 功 能 指标 


关系 ， 确 定 模块 间 的 接口 及 交互 界面 等 。 主 


选 


户 和 数据 量 级 达到 一 定 程度 后 ， 需 


可 以 支持 该 量 级 的 技术 架构 ， 如 果 这 两 个 参数 的 量 级 都 在 干 万 以 下 ， 选 


常规 的 关系 型 数据 库 就 能 够 满足 需求 ， 如 MySQL。 如 果 干 万 以 上 ， 亿 级 、 十 亿 级 ， 


甚至 更 高 ， 那 么 这 时 候 HBase 可 以 闪 亮 登场 了 ， 实 现 该 项 目 存在 一 定 假设 条 件 ， 这 些 条件 都 是 针对 用 户 量 和 数据 量 而 言 的 。 


假设 条 件 如 下 所 示 : 

“用户: 亿 级 以 上 。 

“ 天 活跃 用 户 : 千 万 级 。 

“日 志 : 亿 级 以 上 ， 包 含 播放 、 点 击 、 下 载 、 购 买 等 。 


“ 音乐 : 百 万 级 。 


7.2.3 ”功能 指标 


1. 存 储 能 力 


: 为 亿 级 的 用 户 建立 用 户 属性 库 ， 存 储 用 户 所 有 的 历史 行为 记录 和 基本 属性 信息 ， 后 续 可 支持 5 亿 用 户 量 级 的 信息 存储 。 


“能够 存储 千 万 量 级 的 音乐 标签 库 。 

2. 运 算 和 查询 能 力 

“ 支持 前 端 业务 至 少 每 秒 500 量 级 的 实时 查询 请 求 。 
“ 支持 每 秒 10000 的 写 入 效率 。 

“ 支持 遍历 查询 ， 遍 历 全 表 在 3 小 时 以 内 。 


3. 统 计 能 


提供 后 台 ， 支 持 查 询 组 合 维度 下 的 统计 数据 ， 查 询 到 结果 展现 速度 不 超过 10 秒 。 


4 扩展 性 
“ 数据 存储 和 计算 能 够 实现 可 扩展 ， 能 够 易于 通过 扩展 性 解决 性 能 瓶颈 问题 。 
“后台 管 理 系统 实现 可 扩展 ， 为 以 后 评估 推荐 算法 、 实 时 修改 不 同业 务 的 推荐 策略 做 准备 。 


“ 提供 统一 接口 ， 支 持 前 端 各 业务 的 数据 需求 。 


7.2.4 ”系统 流程 


音乐 站 属性 库 系 统 可 以 分 为 以 下 四 个 大 部 分 : 

“ 数据 层 : 底层 数据 ， 包 含 日 志 (点击 、 播 放 、 下 载 、 购 买 、 分 享 等 ) 、 用 户 基本 属性 、 抓 取 源 。 

“ 数据 处 理 层 :对 数据 层 进行 数据 预 处 理 、 批 量 加 载 、 增 量 更 新 等 操作 。 

“ 数据 存储 层 : HBase 核 心 层 ， 存 放 处 理 后 的 结构 化 数据 ， 包 含 用 户 属性 库 、 用 户 行为 库 、 音 乐 标签 库 等 。 


“ 数据 应 用 层 : 后 台 查 询 系统 ， 其 他 服务 采用 外 部 API。 


系统 整体 架构 的 详细 情况 如 图 7-1 所 示 。 


接 下 来 将 选取 核心 模块 进行 详细 讲解 ， 例 如 表 结 构 设 计 、 数 据 加 载 、 数 据 检 索 和 后 台 查 询 模块 ， 其 他 如 监控 、 抓 取 等 模块 不 再 


展开 讲解 。 


其 他 业务 应 用 


后 全 查询 系统 


统一 对 外 API 模 块 


HBase 属 性 库 、 行 为 库 、 标 签 库 
抓 到 模块 


Web 
标签 数据 


MySQL 


购买 日 志 分 享 日 志 


点 击 日 志 
音乐 站 属性 库 架 构 
本 节 将 详细 阐述 数据 结构 的 逻辑 设计 ， 即 HBase 表 结构 设计 ， 由 于 HBase 存 在 很 多 特性 ， 所 以 在 设计 表 过 程 中 有 很 多 细节 需要 注意 ， 下 面 的 内 容 会 介绍 每 个 涉及 的 知识 点 ， 并 给 出 设 定 值 以 及 如 此 设置 


由 于 音乐 站 用 户 有 注册 和 非 注册 之 分 ， 并 且 注 册 用 户 和 非 注册 用 户 在 属性 信息 和 行为 信息 上 有 很 大 的 差异 ， 所 以 在 抽 


7.33 GE 


7.3.1 功能 抽象 
music_user_bhvr_attr: 注册 用 户 属性 库 表 ， 存 储 注册 用 户 的 属性 信息 和 行为 信息 


象 数据 结构 上 将 注册 和 非 注册 用 户 区 别 对 待 ， 这 里 的 注册 用 户 属性 库 表 只 针对 注册 用 户 。 
music user bhvr attr index: 注册 用 户 属 性 库 索 引 表 ， 存 储 注册 用 户 属性 库 表 的 二 级 索引 数据 。 由 于 存在 反 向 查询 需求 ， 例 如 通过 注册 用 户 播放 音乐 ID 查 询 对 应 的 用 户 UID。 类 似 这 样 的 需求 ， 如 果 通 


的 原因 。 
根据 案例 背景 和 概要 设计 中 的 描述 ， 将 业务 需求 抽象 为 如 下 的 表 人 逻辑 结构 
过 扫描 全 表 的 方式 实现 在 响应 时 间 方 面 性 能 太 差 ， 而 且 造 成 资源 浪费 ， 取 代 方 案 是 通过 HBase 二 级 索引 的 方式 ， 定 期 将 注册 用 户 属性 库 数 据 创建 倒 排 案 引 ， 利 用 数据 兄 余 换取 访问 速度 的 提升 ( 即 空间 换 时 


B), 


同时 为 了 区 别 注 册 用 户 属性 库 数 据 ， 将 所 生成 的 数据 存储 到 该 表 。 
music user bhvr attt_nreg: 非 注册 用 户 属性 库 表 ， 存 储 非 注册 用 户 的 属性 信息 和 行为 信息 。 同 上 面 所 讲 ， 该 表 对 应 非 注册 用 户 。 
music user bhvr attr nreg index: 非 注 册 用 户 属性 库 索 引 表 ， 存 储 非 注册 用 户 属性 库 表 的 二 级 索引 数据 。 
music tags: 音乐 标签 库 表 ， 存 储 音 乐 标签 数据 ， 这 部 分 数据 虽然 没有 注册 用 户 、 非 注册 用 户 以 及 索引 数据 量 级 大 ， 但 是 为 了 统一 平台 、 接 口 、 扩 展 性 等 各 方面 ， 仍 旧 使 用 HBase 作 为 存储 媒介 。 


7.3.2 ”逻辑 结构 


本 节 详 细 描述 表 的 逻辑 结构 ， 包 含 表 名 、 字 段 和 建 表 语句 等 。 
1.music user bhvr attrz& 
music_user_bhvr_attr 表 结构 如 表 7-1 所 示 。 


表 7-1 music user bhvr attrk 2E 44 


rowkey 表 主 键 userid 一 
timestamp | — — | HW | — O O u 
用 户 观 影 记录 m 

fav 


用 户 喜 欢 的 点 击 记录 3401 存储 mid 
unfav 用 户 不 喜欢 的 点 击 记 录 5603 存储 mid 


用 户 评分 结果 键 值 对 
search 用 户 搜索 行为 记录 机 械 战 警 搜索 关键 词 
dload 用 户 下 载 行 为 记录 7892 存储 mid 
buy 用 户 购 买 行为 记录 7892 存储 mid 


( 续 ) 


主键 、 列 族 字段 名 称 字段 解释 字段 值 举例 其 他 
用 户 生日 
基本 维度 年 龄 E 
age 基本 维度 年 齿 1990:01:01 
region 基本 维度 地 区 
计算 机 1 
1000 元 以 下 
attr z 
EFL MER | 
education 
未 婚 
EN 基本 维度 婚姻 状况 o in marriage 
已 婚 
a : 8B icu 
film type 喜好 的 电影 类 型 3d 5 
商业 维度 读书 5r o r8 
hobby 
兴趣 爱好 i: hobby 
商业 维度 彩票 bs 
广告 标签 
其 他 维度 Htr — 
个 性 标签 宅男 i 
建 表 语句 如 下 : 
create 'music user bhvr attr', { NAME => 'bhvr', VERSIONS=>2147483647, COMPRESSION => 'LZO', 
BLOOMFILTER-»2'ROW' }, { NAME => 'attr', VERSIONS-22147483647, COMPRESSION => 'l120', 
BLOOMFILTER-2'ROW' }, { NAME => 'ecfl', VERSIONS-22147483647, COMPRESSION => 'L20', 
BLOOMFILTER-2'ROW' }, { NAME => 'ecf2', VERSIONS-22147483647, COMPRESSION => 'L20', 
BLOOMFILTER-2'ROW' } 
2.music user bhvr attr indexc& 
music user bhvr attr index 表 结构 如 表 7-2 所 示 。 
表 7-2 music user bhvr attr index 2544 
主键 、 列 族 字段 名 称 字段 解释 字段 值 举 例 
rowkey 表 主 键 ， 拼 接 主键 attr:movt area 欧美 
timestamp WERE. KAFE dl ss 
EE | — 
cfi 用 户 UID 50396612-AB2B-F5B78D8B10A2 
uid_cnt 统计 字段 253458 
cf2 | 一 | 扩展 列 族 


建 表 语句 如 下 所 示 : 


create 'music user bhvr attr index', (NAME => 'cfl', BLOOMFILTER => 'ROW', VERSIONS => 
'2147483647', COMPRESSION => 'LZO'), (NAME => 'cf2', BLOOMFILTER => 'ROW', VERSIONS => 
'2147483647', COMPRESSION => 'LZO') 


3.music user bhvr attr nregzk 
music_ user_bhvr_attr_nreg 表 结构 如 表 7-3 所 示 。 


表 7-3 music user bhvr attr. nreg 2544 


主键 、 列 族 其 他 
timestamp | — | mam, 版 本 控制 | 一 | 一 
| 一 | AR MPA | — | behavior 
mid json 
区 AE 
存储 mid 
ide E 
search 变形 金刚 3 搜索 关键 词 
attribute 


: 音乐 维度 
mov 个 性 化 分 类 Json 


TET 彩票 
存储 Tag ID 


广告 标签 
ig 5 
1: 男 


5 了 
n 


attr 


gender 2: 女 
12: 男 或 女 (不 确定 ， 
3: 10 ~ 19 岁 
—— 4: 20 ~ 29 € 
rein 5. 30 ~ 39 V 
TRE 6: 40 ~ 49 
7: 50 ~ 59 
ecfl |— | 扩展 列 族 1 
ecf2 | 一 | 扩展 列 族 2 
建 表 语句 如 下 : 


create 'music user bhvr attr nreg', { NAME => 'bhvr', VERSIONS=>2147483647， 
COMPRESSION => 'LZO', BLOOMFILTER-2'ROW' ), { NAME = VERSIONS=> 
2147483647, COMPRESSION => 'LZO', BLOOMFILTER=>'ROW' }， { NAME => 'ecfl'， 
VERSIONS=> 2147483647, COMPRESSION => 'LZO', BLOOMFILTER=>'ROW' }, { NAME => 
'ecf2', VERSIONS=>2147483647, COMPRESSION => 'LZO', BLOOMFILTER=>'ROW' } 


4.music_user_bhvr_attr_nreg_index 表 
music_user_bhvr_attr_nreg_index 表 结构 如 表 7-4 所 示 。 


表 7-4 music_user_bhvr attr_nre: g index 表 结 构 


主键 、 列 族 字段 解释 字段 值 举例 


rowkey O= | 表 主 键 ， 拼 接 主键 attr:movt_area_ 了 欧美 

timestamp 一 Hee. hdd - 
—— — |» - 

cfl rk 用 户 UID 50396612-AB2B-F5B78D8B10A2 
统计 字段 253458 


s 一 | D 


建 表 语句 如 下 : 


create 'music user bhvr attr nreg index', (NAME => 'cfl', BLOOMFILTER => 'ROW', 
VERSIONS => '2147483647', COMPRESSION => 'LZO'], (NAME => 'cf2', BLOOMFILTER => 'ROW', 
VERSIONS => '2147483647', COMPRESSION => 'LZO'} 


5.music tags 表 


music tags 表 结构 如 表 7-5 所 示 。 


主键 、 列 族 | 字段 名 称 


表 7-5 music_tags 表 结构 


字段 解释 


字段 值 举例 


rowkey 表 主 键 ， 音 乐 ID ASH909991 
timestamp HERI, hicAsd5 nil 


列 族 


[{"group":" 地 域 "tags" :[" KK 美 "n, ("group":" itti Ixl " "tags": 


tags stags 音乐 标签 mae x 
"ARER n," 民谣 "]}] 
ctags 抓 取 标签 [E] stags， 可 能 Json 中 字段 不 同 
cfl 扩展 列 族 
建 表 语 句 如 下 : 


create 'music tags', (NAME => 'tags', BLOOMFILTER => 'ROW', VERSIONS => '2147483647', 


COMPRESSION => 'L20'}, (NAME => 'cfl', 
'2147483647', COMPRESSION => 'LZO') 


BLOOMFILTER => 'ROW', VERSIONS => 


7.3.3 Rowkeyi&it 


不 同 的 表 对 于 主键 的 定义 格式 不 同 ， 上 一 小 节 提 到 了 5 个 表 ， 其 中 3 个 数据 表 ，2 个 索引 表 。 数 据 表 的 主键 定义 是 用 户 UID 或 者 音乐 MID， 索 引 表 的 主键 定义 使 用 组 合 主键 方式 。 主 键 定义 应 根据 不 同 的 业 
务 需求 ， 本 案例 中 的 业务 需求 定义 使 用 这 两 种 主键 格式 能 够 满足 需求 。 


如 果 需 求 中 存在 删除 功能 ， 则 需要 慎重 考虑 主键 的 定义 。 由 于 HBase 删 除 操作 的 特殊 性 ， 执 行 删除 操作 时 ， 会 删除 指定 时 间 戳 之 前 的 所 有 版 本 数据 ， 所 以 对 于 删除 版 本 的 情况 需要 特别 处 理 主键 ， 综 合 


考虑 主键 和 版 本 的 特性 。 


734 列 族 设计 


在 上 一 个 小 节 提 到 的 所 有 表 中 ， 都 存在 两 个 及 以 上 的 列 族 ， 没 有 定义 过 多 的 列 族 ， 因 为 单个 列 族 在 flush 的 时 候 ， 它 邻近 列 族 也 会 触发 flush， 最 终 导 致 系统 产生 很 多 |/O， 如 果 列 族 过 多 对 HBase 的 集群 


性 能 影响 很 大 。 仅 从 这 一 点 还 不 能 确定 列 族 的 数量 。 


遵循 划分 列 族 的 隔离 原则 ， 将 读 写 频 度 差距 比较 大 的 列 划 分 到 不 同 的 列 族 。 例 如 表 music_user_bhvr_attr 包 含 bhvr、attr、ecf1 和 ecf2 四 个 列 族 ， 其 中 bhvr 的 读 写 频率 很 高 ， 每 天 都 会 有 亿 级 别 的 数据 


写 入 ， 同 时 还 有 大 量 的 查询 操作 。 而 attr 是 比较 固定 的 


属性 ， 更 新 频 度 是 每 周 或 每 月 ， 更 新 的 数 所 


局 量 也 不 大 ， 所 以 在 这 里 把 和 这 两 个 列 族 相 关 的 列 区 分 开 ， 有 助 于 提升 效率 。 对 于 ecf1 和 ecf2 两 个 列 族 是 扩 


展 列 族 ， 一 期 项 目 可 能 用 不 到 ， 考 虑 到 线 上 应 用 追求 低 停顿 的 特性 ， 创 建 这 两 个 扩展 列 族 可 以 有 效 解 决 线 上 添加 列 族 的 需求 。 


7.3.5 ”版 本 定义 


播放 数据 的 使 用 存在 类 似 的 需求 ， 查 询 一 个 用 户 播放 过 的 所 有 音乐 ， 或 者 加 一 个 时 间 自 限制， 查询 一 个 用 户 3 个 月 内 播放 过 的 所 有 音乐 ， 使 用 HBase 中 版 本 的 概念 能 够 很 方便 地 实现 ， 所 以 在 表 定 义 的 时 


候 ， 相 关 的 列 族 属性 信息 中 设置 版 本 如 下 : 


VERSIONS=>2147483647 


7.3.6 ”优化 属性 定义 


HBase 有 很 多 列 族 属性 ， 本 案例 的 设计 过 程 中 使 


了 以 下 三 个 属 


: BLOOMFILTER 


: VERSIONS 


: COMPRESSION 


其 中 VERSIONS 属 性 已 经 在 上 面 讲解 过 ， 这 里 介绍 


1 


一 下 其 他 两 个 属性 。BLOOMFILTER 属 性 布 隆 过 滤 可 以 每 列 族 单独 启用 。 使 用 下 面 代码 所 示 的 方式 对 列 族 单独 启用 布 隆 。Default=NONE 不 使 用 布 隆 
ig; ROW 行 键 的 哈 希 在 每 次 插入 行 时 将 被 添加 到 布 隆 ; ROWCOL 行 键 + 列 族 + 列 族 修 饰 的 哈 希 将 在 每 次 插入 行 时 添加 到 布 隆 。 


HColumnDescriptor.setBloomFilterType (NONE | 


ROW | ROWCOL) 


对 于 COMPRESSION (压缩 ) HBase 支 持 三 种 压缩 格式 : 


“LZO: HBase 是 Apache 的 协议 ,而 LZO 是 GPL 的 协议 。HBase 不 能 自 带 LZO， 因 此 LZO 需 要 在 安装 HBase 之 前 安装 ， 本 案例 选用 LZO 作 为 压缩 数据 格式 。 


“GZ: GZIP 的 压缩 率 更 高 但 是 速度 更 慢 。 在 某 些 特定 情况 下 ， 压 缩 率 是 优先 考量 的 。jJava 会 使 用 Java 自 带 的 GZIP。 


- SNAPPY: 由 Google 开 发 的 压缩 解压 包 ， 和 旨 在 提供 高 速 压缩 速度 和 合理 的 压缩 率 ， 经 业内 测试 比较 SNAPPY 的 压缩 率 比 LZO 稍 微 低 一 些 ， 但 压缩 解压 速度 比 LZO 要 快 。 


列 族 属 性 配置 实例 如 下 : 


BLOOMFILTER => 'ROW', VERSIONS => '2147483647', COMPRESSION => 'LZO' 
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本 节 是 详细 设计 部 分 ， 介 绍 具体 模块 的 具体 逻辑 和 代码 实现 。 所 有 代码 实现 可 以 在 GitHub 上 找到 : 


* https://github.com/mayanhui/hadoop-hbase-examples 


* https://github.com/mayanhui/hbase-secondary-index 


后 面 的 数据 检索 、 二 级 索引 和 后 台 查询 小 节 的 源 代 码 在 上 面 的 链接 中 也 可 以 找到 。 


7.4.1 ”加载 流程 


数据 加 载 模块 使 用 MapReduce 整 合 HBase 的 方式 ， 将 本 地 日 志文 件 批量 加 载 到 HBase 对 应 表 中 。 详 细 加 载 流 程 如 下 : 


1) 本 地 日 志 (播放 、 点 击 、 下 载 、 购 买 、 分 享 ) 加 载 到 HDFS， 为 MapReduce 批 量 处 理 准备 基础 数据 。 


2) 主 类 配置 任务 参数 ， 并 且 作 为 整个 任务 的 入 口 启动 任务 。 配 置 参 数 包含 任务 名 称 、 任 务 Mapper 类 、OutputFormat 类 、 输 出 表 名 、 输 出 Key/Value 分 别 对 应 的 类 型 、HBase 集 群 ZooKeeper 队 列 、 
HBase 集 群 Master、 列 名 等 。 


3) Mapper 是 整个 流程 的 核心 。 整 个 数据 处 理 流程 在 这 个 类 中 ， 下 面 是 Mapper 类 中 的 主要 的 代码 逻辑 : 


setup 方法 中 取 全 局 配置 环境 变量 。 
.map 方法 过 滤 噪 声 数 据 。 
. 提取 关键 字段 OMER) o 


- 生成 Put 对 象 ， 写 入 HBase。 


数据 加 载 过 程 的 详细 流程 如 图 7-2 所 示 。 


HBase 属 性 库 、 行 为 库 、 标 签 库 


提取 字段 提取 字段 提取 字段 
创建 PUT 创建 PUT B 创建 PUT 


VVImport VVImport VVImport 
Mapper Mapper Mapper 


Main 配 置 执行 


成 功 加 载 一 No 


1 


加 载 到 HDFS 


点 击 日 志 播放 日 志 下 载 日 志 购买 日 志 分 享 日 志 


图 7-2 ”数据 加 载 流程 


W 


7.4.2 Mapper% 


上 面 已 经 提 到 Mapper 是 整个 加 载 过 程 的 核心 ， 下 面 的 代码 是 数据 加 载 中 Mapper 的 一 个 实例 。 这 里 对 一 些 要 点 进行 一 些 必 要 的 解释 。 


所 有 的 全 局 变量 需要 在 setup 方 法 中 提取 ， 该 方法 在 map 方 法 执行 前 执行 ， 使 用 context.getConfiguration () .get ("conf.column") 方法 提取 设置 的 全 局 变量 


局 变量 。 


Mapper 类 输出 值 的 Key 必 须 是 ImmutableBytesWritable 类 型 ，Value 是 Writable 类 型 ， 这 两 个 类 型 需要 在 Main 类 中 配置 ， 与 context.write (new ImmutableBytesWritable (rowkey) , put) 的 
Key 和 Value 对 应 。 


为 了 方便 校 验 结果 ， 可 以 在 Mapper 中 添加 Counter 统 计 方法 ， 在 本 示例 中 添加 了 Counter 统 计 ， 代 码 是 context.getCounter ("hbase-import", "vv-line") .increment (1) ， 该 统计 用 于 统计 有 效 
的 数据 行 数 。 注 意 所 有 的 Counter 都 是 全 局 变量 。 


public class VVImportMapper extends 
Mapper«LongWritable, Text,  ImmutableBytesWritable, Writable> ( 
private byte[] family = null; 
private byte[] qualifier = null; 
private String uid - null; 
private String mid - null; 
private long ts = System.currentTimeMillis () ; 
GOverride 
protected void setup (Context context) throws IOException, 
InterruptedException { 
super.setup (context) ; 
String column - context.getConfiguration () .get ("conf.column") ; 
byte[][] colkey = KeyValue.parseColumn (Bytes.toBytes (column) ) ; 
family = colkey[0]: 
if (colkey.length > 1) ( 
qualifier = colkey[1]: 
} 


} 

// "(2C39COF8-55C7-38A0-1DEF-F7448D1BB80D)", 59177, 1341453584000 

GOverride 

protected void map (LongWritable key, Text value, Context context) 
throws IOException, InterruptedException { 


try { 
String lineString = value.toString () ; 
if (lineString.indexOf ("uid") >= 0 
&& lineString.indexOf ("mid") »- 0 
&& lineString.indexOf ("ts") >= 0) 
return; 
String[] arr = lineString.split (", ", -1); 
if (arr.length = 3) { 
uid = arr[0]: 
if (null ! = uid && uid.length () > 0 && uid.startsWith (" 
&& uid.endsWith ("\"") ) ( 
uid = uid.substring (1, uid.length O - 1); 


} 
mid = arr[1]: 
String tsStr - arr[2]: 
if (null ! = tsStr && tsStr.length O > 0) { 
ts = Long.parseLong (tsStr) ; 
) 
} 
byte[] rowkey = uid.getBytes () ; 
Put put = new Put (rowkey, ts): 
put.add (family, qualifier, Bytes.toBytes (mid) ) ; 
context.write (new ImmutableBytesWritable (rowkey) , put); 
context.getCounter ("hbase-import", "vv-line") .increment (1) ; 
) catch (Exception e) ( 
e.printStackTrace () ; 
} 


7.4.3 ”Main 类 


Main 类 是 数据 加 载 模块 的 入 口 类 ， 用 于 配置 全 局 变量 和 启动 任务 。 其 中 要 注意 三 个 要 点 : 
“ 设置 OutputFormat 参 数 。 这 里 使 用 TableOutputFormat 类 ， 继 承 自 OutputFormat 类 ， 用 于 将 数据 写 入 特定 的 HBase 表 中 。 


- 设置 输出 值 的 Key/Value 类 型 。Key 使 用 ImmutableBytesWritable 类 型 ，Value 使 用 Writable 类 型 ， 这 两 个 类 型 是 成 对 出 现 的 。 


- 设置 HBase Master 和 ZooKeeper 参 数 。 使 用 job.getConfiguration () .set ("，"") 设置 。 
/x 
* MapReduce 读 取 HDFS 上 的 文件 .以 HTable.put (put) 的 方式 在 map 中 完成 数据 写 入 ， 无 reduce 过 程 
* 
* x 
/ 


public class BulkImportMain extends Configured implements Tool ( 
static final Log LOG = LogFactory.getLog (BulkImportMain.class) ; 
ConfigProperties config - ConfigFactory.getInstance () .getConfigProperties ( 
ConfigFactory.APP CONFIG PATH) ; 


GOverride 
public int run (String[] args) throws Exception ( 
if (args.length != 3) ( 


LOG.info ("Usage: 3 parameters needed! Mihadoop jar hbase-buld-import- 
0.1.jar «inputPath» «tableName» «columns»") ; 
System.exit (1) ; 
} 
String input = args[0]; 
String table = args[1]; 
String columns = args[2]: 
Configuration conf = HBaseConfiguration.create () ; 
Job job = new Job (conf, "Import from file " + input + " into table " 
* table) ; 
job.setJarByClass (BulkImportMain.class) ; 
job.setMapperClass (VVImportMapper.class) ; 
job.setOutputFormatClass (TableOutputFormat.class) ; 
job.getConfiguration () .set (TableOutputFormat.OUTPUT TABLE, table); 
job.getConfiguration () .set ("conf.column", columns) ; 
job.setOutputKeyClass (ImmutableBytesWritable.class) ; 
job.setOutputValueClass (Writable.class) ; 
job.setNumReduceTasks (0) ; 
// hbase master 
job.getConfiguration () .set (ConfigProperties.CONFIG NAME HBASE MASTER, 
config.getProperty (ConfigProperties.CONFIG NAME HBASE MASTER) ) ; 
// zookeeper quorum 
job.getConfiguration () 
.Set (ConfigProperties.CONFIG NAME HBASE ZOOKEEPER QUORUM, 
config.getProperty (ConfigProperties.CONFIG NAME HBASE ZOOKEEPER QUORUM) ) ; 
FileInputFormat.addInputPath (job, new Path (input) ); 7 B g ui 
return job.waitForCompletion (true) ? 0: 1; 
} 
public static void main (String[] args) throws IOException { 
Configuration conf = new Configuration () ; 
String[] otherArgs = new GenericOptionsParser (conf, args) 
-getRemainingArgs () ; 
int res = 1; 
try { 
res = ToolRunner.run (conf, new BulkImportMain () ， otherRrgs) ; 
} catch (Exception e) { 
e.printStackTrace () ; 
} 
System.exit (res) ; 


744 运行 


直接 使 用 Hadoop 命 令 运行 JAR 包 启动 任务 ,命令 的 使 用 方式 如 下 : 


Usage: hadoop jar «jar» [mainClass] argshttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/14884/0EBPS/Text/.. 


给 出 一 个 直接 运行 JAR 包 的 样 例 : 


Hadoop jar hadoop-hbase-examples-0.1.jar com.adintellig.hbase.vv.BulkImportMain 


7.5 ”数据 检索 


7.5.1 HBaseTable 


HBaseTable[1] 用 于 单 表 读 写 操作 ， 读 操作 包含 Get 和 Scan， 写 操作 包含 Delete 和 Put， 其 使 用 方法 如 下 面 的 代码 : 


Configuration conf = HBaseConfiguration.create () ; 

HTable table = new HTable (conf, "testl"); 

Put put = new Put (Bytes.toBytes ("rowl") ) ; 

put.add (Bytes.toBytes ("colfaml") , Bytes.toBytes ("quall") , Bytes.toBytes ("vall") ); 
put.add (Bytes.toBytes ("colfaml") , Bytes.toBytes ("qual2") , Bytes.toBytes ("val2") ) ; 
table.put (put) 


7.5.2 HBaseAdmin 


HBaseAdmin 是 客户 端 AP1， 类 似 关 系 型 数据 库 中 的 DML (Data Manipulation Language) ， 用 于 管理 HBase 数 据 库 表 的 元 数据 信息 、 建 表 、 检 查 表 是 否 存 在 、 修 改 表 信息 和 列 族 定义 、 删 除 表 等 操 
作 。 下 面 介绍 一 下 HBaseAdmin 的 常用 方法 。 


1. 表 操作 

- createTable: 创建 表 。 
- deleteTable: 删除 表 。 
* disableTable: 下 线 表 。 


: enableTable: 上 线 表 。 


下 面 是 上 述 方法 使 用 的 代码 示例 : 


Configuration conf = HBaseConfiguration.create () ; 

HBaseAdmin admin = new HBaseAdmin (conf) ; 

HTableDescriptor desc = new HTableDescriptor (Bytes.toBytes ("tablel") ) ; 
HColumnDescriptor coldef = new HColumnDescriptor (Bytes.toBytes ("cfl") ) ; 
desc.addFamily (coldef) ; 

admin.createTable (desc) ; 

admin.disableTable (Bytes.toBytes ("testtable") ) ; 

admin.deleteTable (Bytes.toBytes ("testtable") ) ; 


2.Schema 操 作 
.addColumn: 添加 字段 。 
- deleteColumn: 删除 字段 。 


: modifyColumn: 修改 字段 。 


下 面 是 上 述 方法 使 用 的 代码 示例 : 


if (modCols.size () > 0 || addCols.size () > 0 || delCols.size OO > 0) ( 

for (final HColumnDescriptor col : modCols) { 

LOG.info ("Found different column -> " + col) ; 

hbaseAdmin.modifyColumn (schema.getName () , col.getNameAsString () , col) ; 
for (final HColumnDescriptor col : addCols) { 

LOG.info ("Found new column -> " + col) ; 

hbaseAdmin.addColumn (schema.getName () , col): 
for (final HColumnDescriptor col : delCols) ( 


LOG.info ("Found removed column -> " + col) ; 
hbaseAdmin.deleteColumn (schema.getName () , col.getNameAsString () ) ; 


3. 集 群 操作 

- flush: 序列 化 到 硬盘 。 
: compact: 合并 。 
"split: 拆 分 。 

"assign: 分 配 。 


* balanceSwitch: 负载 均衡 。 


因为 集群 操作 的 方法 更 多 是 HBase 运 维 方面 的 内 容 ， 这 里 不 再 展开 讲解 代码 示例 ， 如 果 读 者 感 兴趣 可 以 参考 官方 的 Java docs 文 档 [站 ， 该 文档 详细 介绍 了 HBaseAdmin 类 的 方法 。 


7.5.3” 几 种 检索 类 型 


下 面 的 代码 是 几 种 检索 类 型 的 公共 变量 : 


Configuration config = HBaseConfiguration.create () ; 

config.set ("hbase.master", cp.getProperty (ConfigProperties.CONFIG NAME HBASE MASTER) ) ; 

config.set ("hbase.zookeeper.property.clientPort", "2181") ; 

config.set ("hbase.zookeeper.quorum", cp.getProperty (ConfigProperties.CONFIG NAME 
HBASE ZOOKEEPER QUORUM) ) ; 

HTable table = new HTable (config, Bytes.toBytes ("demo table") ) ; 

HBaseAdmin admin = new HBaseAdmin (config) ; 


1. 按 Rowkey 查 询 


按照 Rowkey 查 询 是 HBase 检 索 中 最 常用 ， 并 且 是 速度 最 快 的 查询 。 类 似 HashMap 中 通过 Key 获 取 Value 值 ， 由 于 HBase 按 列 存储 特性 ， 查 询 速 度 非常 快 ， 内 网 查询 应 该 在 毫秒 级 别 。 下 面 是 按照 
Rowkey 查 询 的 代码 示例 : 


public void get (String rowkey, String columnFamily, String[] columns) 
throws IOException ( 
Get get = new Get (Bytes.toBytes (rowkey) ) ; 
for (inti -0; i < colums.length: i++) { 
get.addColumn (Bytes.toBytes (columnFamily) , 
Bytes.toBytes (columns[i]) ) ; 
} 
Result dbResult = table.get (get) ; 


try { 


System.out.println ("size-" + dbResult.size () 


$ 


+", value=" 


+ Bytes.toString (dbResult.list () .get (0) .getValue () ) ) ; 
) catch (Exception e) { 


2. 按 照 时 间 段 过 滤 查 询 


按照 时 间 段 过 滤 查 询 也 是 比较 常用 的 扫描 查询 ， 使 用 Scan 方法 。 需 要 设置 Scan 的 TimeRange 属 性 ， 下 面 示例 中 提 到 的 代码 不 仅仅 设置 了 时 间 范 | 


， 还 设置 了 查询 字段 。 另 外 ， 还 可 以 设置 版 本 数量 、 


public void scanTs 


Scan scanner 
/* version */ 


(long startTime, long endTime, String[] columns) 
throws IOException ( 


7 new Scan () ; 


Scanner.setTimeRange (startTime, endTime) ; 


/* columns */ 


for (String col: columns) { 
byte[][] colkey = KeyValue.parseColumn (Bytes.toBytes (col) ) ; 
if (colkey.length > 1) ( 


scanner.addColumn (colkey[0]， 


} eise ( 


scanner.addFamily (colkey[0]) ; 


} 


) 

/* batch and caching */ 
Scanner.setBatch (0) ; 
Sscanner.setCaching (10000) ; 
ResultScanner rsScanner = table.getScanner (scanner) ; 
for (Result res : rsScanner) { 


final Li 


st«KeyValue» list = res.list O ; 


for (final KeyValue kv : list) { 
kv.getTimestamp () ; 


System.out.println (getRealRowKey (kv) ) ; 


break; 


} 
} 


rsScanner.close () ; 


colkey[1]) : 


3. 按 行 分 页 查询 


按 行 分 页 使 用 HBase 过 滤器 中 的 PageFilter， 按 照 Rowkey 进 行 分 页 读 取 ， 下 面 示例 代码 实现 了 分 页 读 取 的 方法 ， 读 者 可 以 直接 使 


。 方 法 的 传 入 参数 ， 一 是 每 页 行 数 ， 二 是 上 次 的 Rowkey 值 。 


public void pageRow (int pageSize， byte[] lastRow) 
Filter filter = new PageFilter (pageSize) ; 
int totalRows = 0; 


Scan scan — 


new Scan () ; 


scan.setFilter (filter) ; 


if (lastRow 


!-nulD ( 


throws IOException ( 


byte[] startRow = Bytes.add (lastRow, POSTFIX) ; 


System.out.println ("start row: 


Scan.setStartRow (startRow) ; 


} 


ResultScanner scanner = table.getScanner (scan) ; 


int localRows = 0; 
Result result; 
while ( (result = scanner.next () ) ! = null) 


System.out.println (localRowstt + ": 


totalRows++; 


lastRow 
} 


= result.getRow () ; 


scanner.close O ; 


" + Bytes.toStringBinary (startRow) ) ; 


" + result) ; 


4. 按 版 本 分 页 查询 


实际 应 用 中 ， 经 常会 碰 到 按照 版 本 分 页 的 情况 。 例 如 ， 查 询 一 个 
戳 进 行 版 本 分 页 ， 每 次 传 入 Rowkey、 分 页 大 小 、 上 次 时 


码 中 按照 时 间 


m 


户 3 个 月 内 的 播放 记录 ， 有 上 万 的 MID， 每 次 访问 都 全 量 读 取 会 浪费 资源 ， 这 时 候 引入 分 页 能 解决 性 能 和 资源 浪费 问题 。 下 


间 惟 ， 返 回 值 是 java 集 合 类 List<String> 。 


示例 的 代 


public List<String> pageVersion (String rowkey, 


long lastTimestamp) throws IOException ( 


List«String» 


rows = new Arraylist«String» () ; 


Get get = new Get (Bytes.toBytes (rowkey) ) ; 


get.addColumn (Bytes.toBytes ("cf1") ， 


int pageSize, 


Bytes.toBytes ("rk") ) ; 


get.setTimeRange (lastTimestamp - MILLISECONDS INTERVAL, lastTimestamp - 1) ; 


Scan scan = 


new Scan (get) ; 


scan.setMaxVersions () ; 


ResultScanner scanner = table.getScanner (scan) ; 


for (Result 
int row 


res : scanner) { 
= 0; 


final List<KeyValue> list = res.list O ; 
for (final KeyValue kv : list) { 
row = row + 1; 


Xf 


(row » pageSize) 
break; 


rows.add (Bytes.toStringBinary (kv.getValue () ) - COMMON SERARATOR 


) 
f 


+ kv.getTimestamp () ) ; 


scanner.close () ; 


return rows; 


[由 参见 http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/client/ HTable.html。 


[2] 参见 http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/client/ HBaseAdmin.html。 
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7.6.1 二 级 索引 实现 


1. 流 程 


网 


HBase 二 级 索引 使 


MapReduce 实 现 ， 没 有 实现 事务 ， 采 上 


力度 差 ， 容 易 造 成 写 入 速度 慢 等 问题 ， 直 接 使 用 分 离 任务 方式 实现 。HBase 二 级 索引 流程 图 如 图 7-3 所 示 。 


离线 计算 的 方式 生成 二 级 索引 。 该 实现 方案 中 生成 索引 和 加 载 数据 是 分 离 的 ， 分 别 由 不 同 的 任务 执行 。 由 于 单 任务 实现 中 Reduce 个 数控 制 


HBase 属 性 库 、 行 为 库 、 标 签 库 


| | 
| IndexMapper — IndexMapper IndexMapper | LoadMapper ^ LoadMapper LoadMapper | 
Mimi 4 i boc d 1 - 
| 生成 索引 数据 ERRI 生成 索引 数据 | 加 载 到 HBase ”加载 到 HBase 加 载 到 HBase | 
| | | 
| uo s 4 
索引 生成 部 分 索引 生成 部 分 
图 7-3 HBase 二 级 索引 实现 流程 图 

使 用 整合 MapReduce 的 方式 创建 hbase 索 引 。 主 要 步骤 如 下 : 

1) 扫描 输入 表 ， 使 用 hbase 实 现 类 TableMapper。 

2) 获取 Rowkey 和 指定 字段 名 称 和 字段 值 。 

3) 创建 Put 实 例 ， 如 value=rowkey, rowkey=columnName+" "+columnValue。 

4) 使 用 ldentityTableReducer 将 数据 写 入 索引 表 。 

支持 创建 索引 的 方式 : 

:创建 单列 索引 。 

:同时 创建 多 个 单列 索引 。 

“ 创建 联合 索引 (最 多 同时 支持 3 个 列 ) 。 

- Json Column 单 列 索引 ， 多 个 单列 索引 ， 联 合 索引 (最 多 3 个 Json 字 段 ) 。 

- 只 根据 Rowkey 创 建 索引 。 

2.IndexMapper 

IndexMapper 是 生成 索引 的 核心 允 辑 部 分 ， 其 实 索 引 的 核心 是 倒 排 表 ， 即 将 Key-> Value 格式 反 转 为 Value-> Key 格 式 。 处 理 时 ， 关 键 部 分 是 反 转 后 的 Rowkey 要 定义 统一 的 格式 。 在 该 类 中 使 用 拼接 方 

式 组 成 Rowkey ( 即 拼接 字段 名 + 字段 值 ) ， 例 如 下 面 这 个 具体 的 示例 : 

原始 数据 格式 : 

pr PES E hi mid, timestamp=1366193661098, value=212953 

索引 数据 格式 : 

ROW COLUMN+CELL 


bhvr: mid 212953 column-cfl: rk, timestamp=1372267437000, value=1lab85357aff8 


由 于 代码 量 大 ， 这 里 不 罗列 IndexMapper 全 部 代码 ， 其 核心 map 方 法 代码 如 下 : 


public void map (ImmutableBytesWritable row, Result columns, Context context) 
throws IOException ( 

String value null; 

String rowkey = new String (row.get O ); 

String cf = Const.COLUMN FAMILY CFl STRING; 

String qualifier - Const.COLUMN RK STRING; 


String[] arr = null: 


if (! isBuildSingleIndex) ( 
// initial column name and values map 
arr = column.split (", ", -1); 
colNameValSetrMap = new HashMap«String, Set«String»» (arr.length) ; 
for (inti = 0; i < arr.length; i++) { 
colNameValSetrMap.put (arr[i], new HashSet«String» () ) ; 
} 
} 
try { 
for (KeyValue kv : columns.list () D ( 
value = Bytes.toStringBinary (kv.getValue () ) ; 


ts = kv.getTimestamp ©) ; 
columnFamily = kv.getFamily © ; 
columnQualifier kv.getQualifier O ; 
String columnName = Bytes.toString (columnFamily) 
+ Const.FAMILY COLUMN SEPARATOR 
+ Bytes.toString (columnQualifier) ; 
if (null ! = value && value.length () > 0) { 
k.set (columnName + Const.ROWKEY DEFAULT SEPARATOR + value 
+ Const.FIELD COMMON SEPARATOR + ts); 
v.set (cf + Const.FIELD COMMON SEPARATOR + qualifier 
+ Const.FIELD COMMON SEPARATOR + rowkey) ; 
context.write (k, v2; m 
if (! isBuildSingleIndex) { 
Set«String» colValSet - colNameValSetrMap 
.get (columnName) ; 
colValSet.add (value) ; 
colNameValSetrMap.put (columnName, 


colValSet) ; 


} 


/* build combined index */ 
if (! isBuildSingleIndex) ( 
// remove empty columns 
Map«String, Set«String»» cleanedMap = removeEmptyEntry (colNameValSetrMap) ; 
if (cleanedMap.size () » 1 && cleanedMap.size () « 4 
&& cleanedMap.size () <= arr.length) { 
// The existing columns of this rowkey is 3 and the input 
// 'column' is 3 too. 
if (cleanedMap.size O == 3) { 
Set«String» cn0 = cleanedMap.get (arr[0]) ; 
Set«String» cnl = cleanedMap.get (arr[1]) ; 
Set«String» cn2 - cleanedMap.get (arr[2]) : 
for (String v0: cn0) { 
for (String vl: cnl) { 
for (String v2: cn2) { 
Vector«String» source = new Vector«String» () ; 
source.add (arr[0] 
* Const.ROWKEY DEFAULT SEPARATOR 
+ v0); B B 
source.add (arr[1] 
* Const.ROWKEY DEFAULT SEPARATOR 
+ via 
source.add (arr[2] 
* Const.ROWKEY DEFAULT SEPARATOR 
* v2) 5 
Vector«Vector» comb = Combination 
-getLowerLimitCombinations (source, 
2) 
if (null ! = comb && comb.size OO > 0) { 
for (Vector vect : comb) ( 
String indexRowkey = vect 
.toString () 
.replaceAll (", ", 
.replaceAll ("NN [", 
.replaceAll ("NN]J", "") ; 
k.set (indexRowkey 
* Const.FIELD COMMON SEPARATOR 
* ts); 
v.set (cf 


Const.FIELD COMMON SEPARATOR 

qualifier 一 = 

Const.FIELD COMMON SEPARATOR 
+ rowkey) ; 

context .write (k, v); 


十 十 十 


} 
// The input 'column' is 2 or 3, and the existing 
// columns of this rowkey is 2. 
) else if (cleanedMap.size O == 2) { 
Set«String» cn0 = null; 
Set«String» cnl = null; 
// arr convert to list, do not use Arrays.asList (0, it 
// could not use remove O . 
List«String» arrList - new ArrayList«String» () ; 
for (Strings: arr) ( 
arrList.add (s) ; 
} 
if (arr.length == 3) { 
String key = getKeyWithEmptyValue (colNameValSetrMap) ; 
arrlist.remove (key) ; 
cn0 = cleanedMap.get (arrList.get (0) ) ; 
cnl = cleanedMap.get (arrList.get (1) ) ; 
) else if (arr.length == 2) { 
cn0 = cleanedMap.get (arr[0]) ; 
cnl = cleanedMap.get (arr[1]) : 
) 
for (String v0: cn0) { 
for (String vl: cni) { 
String indexRowkey = arrList.get (0) 
+ Const.ROWKEY DEFAULT SEPARATOR + v0 
* Const.ROWKEY DEFAULT SEPARATOR 
* arrlist.get (1) 
+ Const.ROWKEY DEFAULT SEPARATOR + v1; 
k.set (indexRowkey 
+ Const.FIELD COMMON SEPARATOR + ts); 
v.set (cf + Const.FIELD COMMON SEPARATOR 
+ qualifier ` z 
+ Const.FIELD COMMON SEPARATOR + rowkey) ; 
context.write (k, v); 


} 
} 
} catch (Exception e) { 
e.printStackTrace O ; 
System.err.println ("Error: " + e.getMessage O +", Row: " 
+ Bytes.toString (row.get (0D ) + ", Value: " + value); 


3.LoaderMapper 


LoadMapper 用 于 批量 加 载 数据 到 HBase， 与 前 面 小 节 讲 到 的 知识 基本 相同 ， 在 这 里 不 再 过 多 阐述 。 


protected void map (LongWritable key, Text value, Context context) 
throws IOException, InterruptedException { 
try ( 
d String lineString = value.toString O ; 
String[] arr = lineString.split ("Nt", -1); 
if (arr.length == 2) { 
String midTs = arr[0]: 
String cfq = arr[1]; 
String[] keys = midTs.split (Const.FIELD COMMON SEPARATOR, -1) ; 
if (keys.length == 2) ( T 2 
rowkey = Bytes.toBytes (keys[0]) ; 
ts = Long.parselong (keys[1]) ; 
} 
String[] vals = cfq.split (Const.FIELD COMMON SEPARATOR, -1) ; 
if (vals.length == 3) { 
family = Bytes.toBytes (vals[0]) : 
qualifier = Bytes.toBytes (vals[1]) ; 
cellValue = Bytes.toBytes (vals[2]) ; 
} 
Put put = new Put (rowkey, ts): 
put.add (family, qualifier, cellValue) ; 
context.write (new ImmutableBytesWritable (rowkey) , put); 
long cur = table.incrementColumnValue (rowkey, family, 
Const.COLUMN RK COUNTER BYTE, 1L) ; 
System.out.println (cur) ; 
) 
) catch (Exception e) ( 
e.printStackTrace () ; 
$ 
H 
protected void cleanup (Context context) throws IOException, 
InterruptedException { 
if (null ! = table) 
table.close () ; 


4.Main 


下 面 的 示例 代码 仅 给 出 了 关键 的 任务 流程 部 分 ， 可 以 从 注释 中 发 现 包含 两 个 任务 : 一 个 创建 索引 ， 一 个 加 载 数 


/* JOB-l: generate secondary index */ 

Job job = new Job (conf, "Build hbase secodary index in " + inputTable 
+", write to " + outputTable + " JOB-1") ; 

job.setJarByClass (Main.class) ; 

TableMapReduceUtil.initTableMapperJob (inputTable, scan, 


MapperWrapper.wrap (mapperType) , Text.class, Text.class, job): 


job.setNumReduceTasks (0) ; 
job.setOutputFormatClass (TextOutputFormat.class) ; 
FileOutputFormat.setOutputPath (job, tempIndexPath) ; 


int success = job.waitForCompletion (true) ? 0: 1; 
/* JOB-2: load index data into hbase */ 
if (success — 0) { 


job = new Job (conf, "Build hbase secodary index in " + inputTable 


+", write to " + outputTable + " JOB-2") ; 
job.setJarByClass (Main.class) ; 
job.setMapperClass (LoadMapper.class) ; 
job.setNumReduceTasks (0) ; 
job.setOutputFormatClass (TableOutputFormat.class) ; 
job.getConfiguration () .set (TableOutputFormat.OUTPUT TABLE, 


outputTable) ; 


FileInputFormat.addInputPath (job, tempIndexPath) ; 
success = job.waitForCompletion (true) ? 0: 1; 


} 
System.exit (success) ; 


仍然 使 用 hadoop jar 方 式 创建 二 级 索引 


1， 创建 索引 命令 时 使 用 的 参数 如 下 : 


usage: Build-Secondary-Index -c <family: qualifier> [-d] [-e <end-date>] 
-i <input-table-name> [-j <json fields>] -o <output-table-name> [-r 
<rowkey fields>] [-s <start-date>] [-si <single-index>] [-v 
<versions>] 

-c, --column «family: qualifier» column to store row data into (must 


-d, --debug 

-e, --edate «end-date» 

-i, --input «input-table-name» 
=j; --json «json fields» 


-o, --output «output-table-name» 


-r, --rowkey «rowkey fields» 
-s, --sdate «start-date» 
-si, --sindex «single-index^ 
-v, —versions «versions» 


exist) . Such as: 

Cfl: age, cf2: tag, cf2: msg or rowkey or 
rowkey, cfl: age. The last two usage are 
for 'rowkey' index building. 

switch on DEBUG log level 

the end date of data to build 

index (default is today), such as: 
20130120 

the directory or file to read from 
(must exist) 

json fields to build index. The max 
number of fields is 3! This kind of 
data uses IndexJsonMapper.class. 

table to import into (must exist) 
rowkey fields to build index. The max 
number of fields is 2! This kind of 
data uses IndexRowkeyMapper.class. The 
format is: uid: 1, msgid: 2, isrowkey: 1 
uid and msgid are the field name, 1 and 
2 is the order in the rowkey (like: 

uid msgid ts) . isrowkey is the label to 
define which field is the new rowkey. 
The separator in rowkey is  . You can 
use validate column to build 
incremental index. If use validate 
column, you need to add a column to -c 
parameter, the -c should be 

'rowkey, cfl: age' 

the start date of data to build 

index (default is 19700101) , such as: 


20130101 
if use single index. true means 'single 
index', false means 'combined 


index' (default is true) . If build 
combined index, the max number of 
columns is 3. 

the versions of each cell to build 
index (default is Integer.MAX VALUE) 


(1) 单列 索引 


因为 创建 二 级 索引 有 多 种 类 型 ， 所 以 创建 索引 的 命令 对 应 也 有 多 类 ， 分 别 对 应 如 下 的 使 用 命令 示例 。 


hadoop jar hbase-secondary-index-0 
demo table -o demo table index 
hadoop jar hbase-secondary-index-0 
demo table -o demo table index 


.1.jar net.hbase.secondaryindex.mapred.Main -i 
-c cfl: mid 

.l.jar net.hbase.secondaryindex.mapred.Main -i 
-c cfl: mid -s 20130101 -e 20130120 -v 1 


(2) 同时 创建 多 个 单列 索引 


hadoop jar hbase-secondary-index-0 
demo table -o demo table index 

hadoop jar hbase-secondary-index-0 
demo table -o demo table index 
20130120 -v 3 


.l.jar net.hbase.secondaryindex.mapred.Main -i 
-c cfl: mid, cfl: age, cf2: msg 

.l.jar net.hbase.secondaryindex.mapred.Main -i 
-c cfl: mid, cfl: age, cf2: msg -s 20130101 -e 


(3) 联合 索引 


hadoop jar hbase-secondary-index-0 
demo table -o demo table index 

hadoop jar hbase-secondary-index-0 
demo table -o demo table index 
-e 20130120 -v 1 


.l.jar net.hbase.secondaryindex.mapred.Main -i 

-c cfl: mid, cfl: age, cf2: msg -si false 

.1.jar net.hbase.secondaryindex.mapred.Main -i 

-c cfl: mid, cfl: age, cf2: msg -si false -s 20130101 


(4) JSON 列 索引 ， 单 列 ， 联 合 索引 


hadoop jar hbase-secondary-index-0 
demo table -o demo table index 

hadoop jar hbase-secondary-index-0 
demo table -o demo table index 
-e 20130120 -v 1 ` T 

hadoop jar hbase-secondary-index-0 
demo table -o demo table index 


.1.jar net.hbase.secondaryindex.mapred.Main -i 
-c cfl: msg -j area, type. category 

‘1.jar net.hbase.secondaryindex.mapred.Main -i 
-c cfl: msg -j area, type. category -s 20130101 


.1.jar net.hbase.secondaryindex.mapred.Main -i 
-c cfl: msg -j area, type. category -si false 


hadoop jar hbase-secondary-index-0.1.jar net.hbase.secondaryindex.mapred.Main -i 
demo table -o demo table index -c cfl: msg -j area, type, category -si false -s 
20130101 -e 20130120 -v 1 


(5) 只 根据 Rowkey 创 建 索引 


hadoop jar hbase-secondary-index-0.1.jar net.hbase.secondaryindex.mapred.Main -i 
demo table -o demo table index -c rowkey -r uid: 1, mid: 2, isrowkey: 1 
hadoop jar hbase-secondary-index-0.1.jar net.hbase.secondaryindex.mapred.Main -i 
demo table -o demo table index -c rowkey: cfl: content -r uid: 1, mid: 2, isrowkey: 1 
hadoop jar hbase-secondary-index-0.1.jar net.hbase.secondaryindex.mapred.Main -i 
demo table -o demo table index -c rowkey: cfl: content -r uid: 1, mid: 2, isrowkey: 1 
-s 20130101 -e 20130120 
hadoop jar hbase-secondary-index-0.1.jar net.hbase.secondaryindex.mapred.Main -i 
demo table -o demo table index -c rowkey: cfl: content -r uid: 1, mid: 2, isrowkey: 1 
-s 20130101 -e 20130120 -v 1 


7.62 ”后 台 查 询 系统 


后 台 查 询 系 统 是 综合 数据 检索 和 HBase 二 级 索引 使 用 的 界面 系统 ， 采 用 J2EE 架 构 ， 方 便 内 部 用 户 通 过 各 种 组 合 条 件 查 询 数据 。 现 在 J2EE 的 技术 已 经 非常 成 熟 ， 而 且 这 部 分 内 容 也 不 是 本 书 的 重点 ， 所 以 
这 里 罗列 一 些 实现 的 重要 功能 ， 以 方便 用 户 形象 理解 系统 。 


“ 喜欢 某 个 音乐 标签 的 所 有 UID、 独 立 用 户 数 、 用 户 的 地 域 分 布 情况 、 男 女 分 布 、 职 业 分 布 ， 页 面 如 图 7-4 所 示 。 


Exe | 内 地 


3 


SE ; 10 ,学 生 : 20 


图 7-4 音乐 标签 查 询 页 面 


“ 菜 种 商业 属性 的 UID 列 表 (如 旅游 对 应 的 UID 列 表 ) ， 查 询 结果 页 面 如 图 7-5 所 示 。 


[ASSDASDASDASDASDASDQQW) 


图 7-5 ”商业 标签 查询 页 面 


“ 某 个 地 域 的 、 某 个 年 龄 段 的 用 户 UID， 独 立 用 户 数 ， 查 询 结果 页 面 如 图 7-6 所 示 。 


TEASER 


413-18 


图 7-6 


“ 以 上 查询 出 来 的 UID 可 以 指向 该 用 户 的 个 人 属性 页 面 ， 见 图 7-7。 
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地 域 、 年 龄 查询 页 面 
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7.7 本章 小 结 


图 7-7 


用 户 信息 详情 页 面 


本 章 主要 讲解 了 如 何 构建 基于 HBase 的 音乐 站 用 户 属性 库 ， 从 案例 需求 、 概 要 设计 和 详细 设计 等 方面 介绍 了 案例 的 实现 过 程 。 本 案例 是 互联 网 行业 中 的 典型 应 用 ， 并 且 本 章 的 组 织 形式 也 参照 了 业内 的 
项 目 设计 文档 ， 这 样 读者 了 解 项 目 设计 和 实现 过 程 的 同时 ， 也 能 熟悉 项 目 文档 的 设计 规范 。 


HBase 开 始 在 不 少 互联 网 公司 广泛 使 


要 读者 关注 ， 如 : 


“ 针对 HBase 的 监控 系统 ， 包 含 表 级 别 、 


， 传 统 行业 的 使 用 则 刚刚 起 步 ， 跟 Hadoop 的 发 展 出 


Region 级 别 、Server 级 别 以 及 ZooKeeper 的 监控 等 。 


线 非常 相似 ， 除 了 本 章 中 介绍 的 表 结 构 设 计 、 数 


EE. Xd 


居 检 索 和 后 台 查 询 等 模块 ， 还 有 其 他 的 功能 点 需 


: HBase 安 全 性 ， 包 含 内 外 网 native java、thrift 访 问 的 安全 性 、region 隔 离 等 。 


第 8 章 构建 广告 实时 计算 系统 


本 章 将 介绍 一 个 互联 网 行业 的 实践 案例 一 一 构建 广告 业务 中 的 实时 计算 系统 ， 将 从 网 络 广告 的 背景 、 数 据 特性 、 各 种 流 处 理 框架 、 案 例 需求 描述 、 概 要 设计 、 详 细 设 计 和 核心 功能 实现 等 多 个 方面 进行 
细致 介绍 ， 完 全 按照 互联 网 项 目 从 预 研 、 设 计 、 开 发 和 部 署 的 开发 规范 ， 将 全 面 涵盖 相关 的 理论 背景 知识 和 实践 操作 。 


本 章 将 介绍 的 “实时 计算 ”并 不 是 计算 机 科学 中 对 受到 “实时 约束 ”的 计算 机 硬件 和 计算 机 软件 系统 的 研究 ， 而 是 广义 的 “实时 ”， 针 对 互联 网 领域 ，“ 实 时 ”的 含义 是 “感觉 不 到 延迟 ”， 并 不 一 定 
是 精确 到 毫秒 、 微 妙 的 时 间 间 隔 。 互 联网 领域 的 “实时 计算 ”一 般 都 是 针对 海量 数据 进行 的 ， 要 求 能 够 实时 响应 计算 结果 ， 一 般 要 求 为 秒 级 。 接 下 来 ， 本 章 的 介绍 也 将 围绕 着 网 络 广告 行业 海量 数据 下 
的 “实时 计算 ”主题 ， 事 括 从 数据 采集 到 数据 存储 、 对 外 服务 等 整个 流程 。 当 然 ， 流 程 中 核心 模块 的 实现 是 讲解 的 重点 。 


8.1 理解 广告 数据 和 流 处 理 框架 


广告 行业 是 一 个 历史 悠久 、 底 萤 深 厚 ， 又 不 乏 创 新 的 行业 ， 根 据 内 容 、 策 略 、 目 的 、 表 现 手法 和 传播 媒介 可 以 分 为 多 种 。 本 章 讲解 传播 媒介 分 类 中 的 互联 网 广告 ， 即 利用 网 站 上 的 广告 横幅 、 文 本 链 
接 、 多 媒体 的 方法 ， 在 互联 网 刊登 或 发 布 广告 ， 通 过 网 络 传递 到 互联 网 用 户 的 一 种 高 科技 广告 运作 方式 。 与 传统 的 四 大 传播 媒体 (报纸 、 杂 志 、 电 视 、 广 播 ) 广告 及 近来 备 受 垂青 的 户外 广告 相 比 ， 网 络 广 
告 具有 得 天 独 厚 的 优势 ， 速 度 最 快 、 效 果 理 想 ， 是 中 小 企业 扩展 壮大 的 很 好 途径 ， 对 于 广泛 开展 国际 业务 的 公司 更 是 如 此 。 本 节 将 重点 介绍 网 络 广告 行业 的 数据 特点 ， 当 然 也 会 涉及 行业 的 一 些 背 景 。 


8.1.1. 网 络 广告 的 几 大 特性 


作为 主要 的 网 络 营销 方法 之 一 ， 网 络 广告 在 网 络 营销 方法 体系 中 具有 举足轻重 的 地 位 。 事 实 上 多 种 网 络 营销 方法 也 都 可 以 理解 为 网 络 广告 的 具体 表现 形式 ， 并 不 仅仅 限于 放置 在 网 页 上 的 各 种 规格 的 广 
告 ， 如 电子 邮件 广告 、 搜 索引 警 关键 词 广告 、 搜 索 固定 排名 等 都 可 以 理解 为 网 络 广告 的 表现 形式 ， 如 图 8-1 所 示 。 无 论 以 什么 形式 出 现 ， 网 络 广告 所 具有 的 本 质 特征 是 相同 的 : 网 络 广告 的 本 质 是 向 互联 网 用 
户 传递 营销 信息 的 一 种 手段 ， 是 对 用 户 注意 力 资源 的 合理 利用 。 
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图 8-1 互联 网 搜索 广告 示例 
相对 于 传统 广告 ， 网 络 广告 呈现 出 一 些 自身 的 特点 ， 了 解 这 些 特点 ， 是 把 握 网 络 广 告 营销 策略 实质 的 基础 。 网 络 广告 的 特点 如 下 : 


“ 传播 范围 广 : 网 络 广告 的 传播 范围 广 ， 不 受 时 空 的 限制 ， 可 以 通过 互联 网 把 广告 信息 全 天 候 、24 小 时 不 间断 地 传播 到 世界 各 地 。 我 国 网 民 数 量 巨大 ， 而 且 还 在 快速 发 展 ， 这 些 网 民 具 有 较 高 的 消费 能 
力 ， 是 网 络 广告 的 受众 ， 可 以 在 世界 任何 地 方 的 互联 网 上 随时 随意 地 浏览 广告 ， 这 种 传销 效果 是 任何 一 种 传统 媒体 都 无 法 达到 的 。 


“ 非 强迫 性 传送 资讯 : 报纸 广告 、 杂 志 广 告 、 电 视 广告 、 广 播 广告 、 户 外 广告 等 都 具有 强迫 性 ， 都 是 要 千方百计 吸引 读者 的 视觉 和 听觉 。 而 网 络 广告 则 属于 按 需 广告 ， 具 有 报纸 分 类 广告 的 性 质 ， 却 不 
需要 受众 彻底 浏览 ， 可 以 自由 查询 ， 并 根据 潜在 顾客 的 需要 主动 呈现 和 展示 ， 这 样 就 节省 了 整个 社会 的 注意 力 资源 ， 提 高 了 广告 的 针对 性 和 有 效 性 。 


. 受众 数量 可 准确 统计 : 利用 传统 媒体 做 广告 ， 很 难 准确 地 知道 有 多 少 人 接触 了 广告 信息 ， 以 报纸 为 例 ， 虽 然 报纸 的 读者 是 可 以 统计 的 ， 但 是 刊登 在 报纸 上 的 广告 有 多 少 人 阅读 却 只 能 估计 推测 而 不 能 
精确 统计 。 至 于 电视 、 广 播 和 路 牌 等 广告 的 受众 人 数 就 很 难 估计 了 ， 而 在 互联 网 上 ， 可 以 通过 权威 、 公 正 的 流量 统计 系统 ， 精 确 地 统计 每 个 广告 的 浏览 人 数 以 及 这 些 用 户 的 查阅 时 间 和 地 域 分 布 ， 从 而 有 助 
于 正确 评估 广告 效果 ， 进 一 步 优化 广告 投放 策略 。 


“ 灵活 的 时 效 性 : 在 传统 媒体 上 做 广告 时 ， 一 旦 发 版 就 很 难 更 改 ， 即 使 可 更 改 往往 也 需要 付出 很 大 的 经 济 代价 。 而 在 互联 网 上 做 广告 能 按 需要 及 时 更 改 广告 内 容 ， 当 然 也 包括 修正 错误 ， 经 营 策略 的 变 


化 可 及 时 得 到 实施 和 推广 。 


“ 强烈 的 交互 性 和 感官 性 : 网 络 广告 的 载体 基本 都 是 多 媒体 、 超 文本 格式 文件 ， 
服务 或 品牌 ， 如果 用 虚拟 现实 等 新 技术 ， 可 以 让 顾客 身 临 其 境 般 感受 商品 或 服务 


8.1.2 ”网 络 广告 的 数据 类 型 


与 网 络 广告 相关 的 采集 数据 有 很 多 种 ， 其 中 最 核心 、 最 关键 的 有 四 类 : 


1. 广 告 展现 数据 


只 需 受 众 对 产品 感 兴趣 ， 仅 需 按 和 鼠标 就 能 进一步 了 解 更 多 、 更 详细 、 更 生动 的 信息 ， 甚 至 
并 能 在 网 上 预定 、 交 易 、 结 算 ， 大 大 增加 了 网 络 广告 的 时 效 性 。 


于 广告 展现 量 (adpv) 的 统计 分 析 。 一 般 


展现 、 点 击 、 行 为 和 第 三 方 数据 监控 。 下 面 详细 介绍 每 种 数据 。 


还 能 让 消费 者 亲自 体验 产品 、 


展现 数据 包含 日 期 、 用 户 ID、 广 告 1D 和 IP 等 信息 。 下 面 是 一 种 广告 展现 的 


广告 展现 数据 是 指 广告 位 获得 的 展现 的 数据 ， 一 般 该 数据 都 需要 发 送 到 服务 器 端 ， 
数据 格式 ， 其 中 JSON 字 段 用 于 扩展 : 
2014-01-13 19: 11: 55 (00D81D1D-00A291-0E2300-87DBCEODA90] {"adid": "31769", 
"asid": "2", "aspid": "o" "ptime": "14", "ag": "4, 5, 20, 26, 1908", "ecode": 
"15", "type". "2", "dpl". "1", "adpid": "O", "dsp", "O", "source": "s") 
61.237.239.3 北京 市 北京 市 
2. 广 告 点 击 数据 


广告 点 击 数据 是 指 广告 位 获得 的 用 户 点 击 的 数据 ， 一 般 该 数据 也 都 需要 发 送 到 服务 器 端 ， 
告 点 击 的 数据 格式 ， 与 广告 展示 并 没有 多 少 区 别 : 


2014-01-13 00: 11: O6 (D33333C3-000C84-2345FB-DB768EC56) {"wid": "13", "aid". "103297", 
"vid"; "1446779", "adid"; "29260", "asid": "1", "aspid": "1", "mid"; "16507", 
"mg": "155", "area"; "13", "dsp": "3"} 175.8.146.246 湖南 省 长 沙市 

3. 广 告 行为 数据 


广告 行为 数据 是 指 广告 位 获得 的 用 户 下 载 、 安 装 或 者 交易 的 数据 ， 一 般 该 数据 也 都 需要 发 送 到 服务 器 端 ， 
息 。 下 面 是 一 种 广告 行为 的 数据 格式 ， 与 广告 展示 也 没有 多 少 区 别 ， 只 是 JSON 扩 展 字 段 中 的 一 些 信息 不 同 : 


"234555", 


2014-01-13 09: 59: 39 (00567D26AD-565D01-C2238-F99000COA0] ("adid": ". 
福建 省 宁德 市 


"asid": "562", "aspid": "12", "type": "1") 120.39.183.47 


4 第 三 方 监控 数据 


于 广告 点 击 量 (adclick) 的 统计 分 析 。 一 般 点 击 数据 包含 日 期 、 


户 ID、 广 告 1D 和 IP 等 信息 。 下 面 是 一 种 广 


于 广告 行为 (adaction) 的 统计 分 析 。 一 般 行为 数据 包含 日 期 、 


户 ID、 广 告 1D 和 IP 等 信 


为 了 使 得 广告 主 方便 地 了 解 目标 消费 群 的 网 络 媒体 浏览 习惯 、 转 化 成 顾客 的 概率 (Conversion Rate) 等 ， 并 且 获 取 公 正 、 客 观 、 权 威 的 统计 信息 ， 非 常 有 必要 使 第 三 方 广告 监控 公司 参与 广告 投放 的 


监控 。 而 第 三 方 的 监控 也 会 产生 监控 数据 ， 这 部 分 数据 没有 前 面 讲 到 的 三 类 数据 内 容 丰 富 ， 但 能 涵盖 最 基本 的 要 素 ， 如 日 期 、 广 告 ID 和 有 


2013-12-31 10 8A451BD3787 22E6 D020 786DF2695B 


8.1.3 ” 流 处 理 框架 


本 节 将 介绍 流 处 理 框架 出 现 的 背景 和 业内 已 经 存在 的 流 处 理 框架 ， 并 且 从 多 个 方面 对 比 


1. 背 景 与 挑战 


于 处 理 各 种 数据 应 


随 着 当今 社会 数据 量 的 日 益 膨胀 ， 由 普通 服务 器 组 成 的 计算 集群 


个 流 框架 的 特性 。 


(000AD54073-19DDC2-971F26-36F4118425) 


。 在 工业 领域 ， 像 网 页 检索 、 机 器 翻译 、 广 告 投放 等 ; 在 科研 领域 ， 像 生物 复杂 分 析 、 


预测 等 。MapReduce 是 一 种 很 好 的 集群 并 行 编程 模型 ， 加 之 拥有 强大 的 开源 实现 一 一 Hadoop 分 布 式 系统 ， 能 够 满足 大 部 分 应 有 


不 过 ，MapReduce 只 是 分 布 式 、 并 行 计 算 的 一 个 方面 ， 虽 然 它 是 一 个 很 好 的 抽象 ， 但 不 能 有 效 


也 解决 计算 领域 的 任何 问题 。 例 如 ， 对 于 那些 需要 重复 使 


逻辑 需 


算法 、R/Excel 等 交互 式 数 据 挖掘 工具 等 ，MapReduce 并 不 能 提供 高 效率 的 处 理 ， 因 为 处 理 这 类 应 


典型 的 商用 搜索 引 警 ， 像 Google、Bing 和 Yahoo 等 ， 通 常 在 有 


j 


户 查询 响应 中 提供 结构 化 的 Web 结 果 ， 同 时 


的 需求 。 


户 1D 等 。 下 面 是 一 个 第 三 方 监控 数据 的 示例 : 


自然 语言 处 理 、 气 候 模拟 


一 批 数据 集 的 应 


行 多 轮作 业 。 


， 像 机 器 学 习 中 的 迭代 式 


也 插入 基于 流量 的 点 击 付费 模式 的 文本 广告 。 为 了 在 页 面 上 最 佳 位 


展现 最 相关 的 广告 ， 通 


过 一 些 算法 来 动态 估算 给 定 上 下 文中 一 个 广告 被 点 击 的 可 能 性 。 上 下 文 可 能 包括 用 户 偏好 、 地 理 位 
多 个 广告 。 为 了 及 时 处 理 


验 ， 增 加 用 户 黏 性 。 尤 其 是 与 计 费 相关 的 业务 ， 对 时 效 性 、 可 靠 性 和 准确 度 的 要 求 都 会 非常 高 。 


、 历 史 查询 
户 反馈 ， 需 要 低 延 迟 、 可 扩展 、 高 可 靠 的 处 理 引擎 。 对 于 社交 网 站 来 说 ， 实 时 统计 和 


分 析 也 推荐 朋友 ， 或 者 及 时 地 反馈 圈子 动态 ， 


行为 数据 ， 精 准 


、 历 史 点 击 等 信息 。 一 个 主 搜索 引擎 可 能 每 秒 处 理 成 干 上 万 次 查询 ， 每 个 页 面 都 可 能 会 包含 


都 会 极 大 地 提升 用 户 体 


为 了 保证 实时 性 ， 许 多 实时 数据 流 处 理 系统 都 是 专 
错 和 扩容 方面 的 问题 ， 应 
期 就 启动 一 次 MapReduce 作 业 ， 这 种 实现 需要 减少 每 个 片段 的 延迟 ， 并 且 需 要 考虑 系统 的 复杂 度 。 


MapReduce 框 架 为 批 处 理 做 了 高 度 优化 ， 系 统 典 型 地 通过 调度 批量 任务 来 操作 静态 数据 ， 任 务 不 是 常 驻 服务 ， 数 
的 架构 ， 试 图 搭建 一 个 既 适 合流 式 计算 又 适合 批 处 理 的 通 


系统 处 理 能 力 必须 与 事件 的 总 流量 相 匹 配 。 数 据 流 实时 处 理 的 模式 决定 了 要 和 批 处 理 使 用 同 


系统 ， 它 们 不 得 不 面 对 可 靠 性 、 扩 展 性 和 伸缩 性 方面 的 


问题 。 使 


MapReduce 的 好 处 在 于 Hadoop 帮 助 业 务 屏蔽 了 底层 处 理 ， 上 层 作 业 不 
升级 也 很 方便 。 不 过 基于 MapReduce 的 业务 不 得 不 面 对 处 理 延 迟 的 问题 。 有 一 种 想法 是 将 基于 MapReduce 的 批量 处 理 转 为 小 批量 处 理 ， 将 输入 数据 切 成 小 的 片段 ， 每 隔 一 个 周 


关心 容 


居 也 不 是 实时 流入 ; 而 数据 流 计 算 的 典型 特点 是 在 不 确定 数据 速率 的 如 


件 流 前 提 下 ， 


SEA 
[zu 


终 系统 可 能 对 两 种 计算 都 不 理想 。 因 此 ， 当 前 业界 诞生 了 许多 数据 流 实时 计 


众所周知 ， 数 据 的 价值 随 着 时 间 的 流逝 而 降低 ， 所 以 


: 流 中 的 数据 元 素 在 线 到 达 ， 需 要 实时 处 理 。 


件 出 现 后 必须 尽快 对 它们 进行 处 理 ， 最 好 数据 出 现时 便 立 刻 对 其 进行 处 理 ， 发 生 一 个 
据 流 模型 中 ， 需 要 处 理 的 输入 数据 (全 部 或 部 分 ) 并 不 存储 在 可 随机 访问 的 磁盘 或 内 存 中 ， 它 们 以 一 个 或 多 个 “连续 数据 流 ”的 形式 到 达 。 数 据 流 不 同 于 传统 的 存储 关系 模型 ，3 


系统 来 满足 各 自 需 求 ， 当 然 除 了 延迟 ， 它 们 还 需要 解决 可 靠 性 、 扩 展 性 和 伸缩 性 等 方面 的 挑战 。 


“ 系统 无 法 控制 将 要 处 理 的 新 到 达 的 数据 元 素 的 顺序 ， 无 论 这 些 数据 元 素 是 在 一 个 数据 流 中 还 是 跨 多 个 数据 流 ; 也 即 重 放 的 数据 流 可 能 和 上 次 数据 流 的 元 素 顺序 不 一 致 


“ 数据 流 的 潜在 大 小 也 许 是 无 穷 无 尽 的 。 


“ 一旦 数据 流 中 的 某 个 元 素 经 过 处 理 ， 要 么 被 丢弃 ， 要 么 被 归档 存储 。 


结果 可 能 会 是 一 个 高 度 复杂 的 系统 ， 并 且 最 


件 进行 一 次 处 理 ， 而 不 是 缓存 起 来 成 一 批 后 再 处 理 。 在 数 


要 有 以 下 几 个 方面 的 特 


2. 各 种 流 处 理 框架 


的 场景 和 领域 ， 了 解 一 种 产品 特性 的 时 候 ， 需 要 特别 关注 其 使 用 场景 是 否 符合 


现在 业界 已 经 有 不 少 流 处 理 框 架 ， 不 仅 有 商业 产品 ， 也 有 不 少 开源 产品 ， 可 谓 “ 百 花 齐 放 ”， 但 是 每 一 种 产品 都 有 其 使 
业务 上 的 需求 。 


(1) Twitter Storm 


Clojure 和 Java 语 言 开 发 。Storm 为 分 布 式 实时 计算 提供 了 一 组 通用 原 语 ， 用 于 “ 流 处 理 ”， 实 时 处 理 消息 并 更 新 数据 
周期 的 ， 而 Topology 是 个 Service， 是 个 不 


Storm 是 Twitter 开 源 的 实时 数据 流 计算 系统 ， 已 经 收录 到 Apache 的 锤 化 器 中 ， 由 
库 ， 这 是 管理 队列 及 工作 者 集群 的 男 一 种 方式 。Storm 借 鉴 了 Hadoop 的 计算 模型 ，Hadoop 运 行 的 是 一 个 Job， 而 Storm 运 行 的 是 一 个 Topology。Job 是 有 生命 


会 停止 的 Job。 图 8-2 展 示 了 Storm 流 处 理 的 示意 图 。 


图 8-2 ”Storm 流 处 理 示 意图 


Storm 的 应 用 场景 主要 有 以 下 三 类 : 
“ 信息 流 处 理 (Stream processing) : Storm 可 用 来 实时 处 理 新 数据 和 更 新 数据 库 ， 兼 顾 容错 性 和 可 扩展 性 。 
“ 持续 计算 (Continuous computation) : Storm 可 进行 持续 查询 并 把 结果 即时 反馈 给 客户 端 。 


:分布 式 远程 程序 调用 (Distributed RPC) : Storm 可 用 来 并 行 处 理 密集 查询 。Storm 的 拓扑 结构 是 一 个 等 待 调用 信息 的 分 布防 数 ， 当 它 收 到 一 条 调用 信息 后 ， 会 对 查询 进行 计算 ， 并 返回 查询 结果 。 


Storm 的 主要 特点 如 下 : 
“ 简单 的 编程 模型 : 类 似 于 MapReduce 降 低 了 并 行 批 处 理 复杂 性 ，Storm 降 低 了 进行 实时 处 理 的 复杂 性 。 


- 支持 各 种 编程 语言 可 以 在 Storm 之 上 使 用 各 种 编程 语言 。 默 认 支 持 Clojure、Java、Ruby 和 Python。 要 增加 对 其 他 语言 的 支持 ， 只 需 实现 一 个 简单 的 Storm 通 信 协 议 即 可 。 


“ 支持 容错 : Storm 会 管理 工作 进程 和 节点 的 故障 。 


“ 支持 水 平 扩展 : 计算 是 在 多 个 线程 、 进 程 和 服务 器 之 间 并 行进 行 的 。 
“可靠 的 消息 处 理 : Storm 保 证 每 个 消息 至 少 能 得 到 一 次 完整 处 理 。 任 务 失 败 时 ， 它 会 负责 从 消息 源 重 试 消息 。Storm 使 用 一 种 比较 巧妙 的 方式 判断 tuple 是 否 丢失 ， 即 发 送 方 和 应 答 方 都 需要 向 系统 内 部 


te 
的 第 三 方 acker 异 或 一 个 随机 数 ， 如 果 在 超时 时 间 内 acker 上 记录 的 消息 随机 数 为 0 则 认为 消息 已 被 正确 处 理 ， 否 则 acket 将 通知 spout 进 行 重 放 。 


“ 高效 消息 处 理 : 系统 的 设计 保证 了 消息 能 得 到 快速 处 理 ， 使 用 ZeroMQ 作 为 底层 消息 队列 。 


E 节 点 运行 了 一 个 名 为 Nimbus 的 守护 进程 ， 用 于 分 配 代 码 、 布 置 任务 及 故障 检测 。 每 个 工作 节点 都 运行 了 一 个 名 为 Supervisor 的 守护 进程 ， 用 于 监听 工 


storm 集群 由 一 个 主 节 点 和 多 个 工作 节点 组 成 。 了 
作 ， 开 始 并 终止 工作 进程 。Nimbus 和 Supervisor 都 能 快速 失败 ， 而 且 是 无 状态 的 ， 这 样 一 来 它们 就 变 得 十 分 健壮 ， 两 者 的 协调 工作 是 由 ZooKeeper 完 成 。 


Storm 的 术语 包括 Stream、Spout、Bolt、Task、Worker、Stream Grouping 和 Topology。Stream 是 被 处 理 的 数据 。Sprout 是 数据 源 。Bolt 处 理 数据 。Task 是 运行 于 Spout 或 Bolt 中 的 线程 。 


Worker 是 运行 这 些 线程 的 进程 。Stream Grouping 规 定 了 Bolt 接 收 何 种 数据 作为 输入 。 数 据 可 以 随机 分 配 (术语 为 Shuffle) ， 或 者 根据 字段 值 分 配 (术语 为 Fields) ， 或 者 广播 (术语 为 All) ， 或 者 总 是 


发 给 一 个 Task (术语 为 Global) ， 也 可 以 不 关心 该 数据 (术语 为 None) ， 或 者 由 自 定义 逻辑 来 决定 (术语 为 Direct) 。Topology 是 由 Stream Grouping 连 接 起 来 的 Spout 和 Bolt 节 点 网 络 。 


(2) Facebook Puma 


Puma 是 Facebook 的 数据 流 处 理 系 统 ， 早 期 的 处 理 系 统 如 图 8-3 所 示 ， 即 二 代 Puma。PTail 将 数据 以 流 的 方式 传递 给 Puma2，Puma2 每 秒 需要 处 理 百 万 级 的 消息 ， 处 理 多 为 Aggregation 方 式 的 操作 ， 
遵循 时 间 序 列 ， 涉 及 的 复杂 Aggregation 操 作 诸如 独立 访问 次 数 、 最 频繁 事件 等 。 
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PTail Puma2 HBase Serving 


图 8-3 ”Puma2 系 统 数据 处 理 通路 


对 于 每 条 消息 ，Puma2 发 送 Increment 操 作 到 HBase。 考 虑 到 自动 负载 均衡 、 自 动容 错 和 写 入 吞吐 等 因素 ，Puma 选 择 HBase 而 不 是 MySQL 作 为 其 存储 引擎 。Puma2 的 服务 器 都 是 对 等 的 ， 也 即 同时 可 
能 有 多 个 Puma2 服 务 器 向 HBase 中 修改 同一 行 数据 。 因 此 ，Facebook 为 HBase 增 加 了 新 的 功能 ， 支 持 一 条 Increment 操 作 修改 同行 数据 的 多 个 列 。 


Puma2 的 架构 非常 简单 并 且 易 于 维护 ， 其 涉及 的 状态 仅仅 是 PTail 的 Checkpoint， 即 上 游 数据 位 置 ， 周 期 性 地 存储 在 HBase 中 。 由 于 是 对 称 结构 ， 集 群 扩容 和 机 器 故障 时 的 处 理 都 非常 方便 。 不 
Puma2 的 缺点 也 很 突出 ， 首 先 ，HBase 的 Increment 操 作 是 非常 昂贵 的 ， 因 为 它 涉及 读 和 写 ， 而 HBase 的 随机 读 效率 比较 差 ， 其 次 ， 复 杂 Aggregation 操 作 也 不 好 支持 ， 需 要 在 HBase 上 写 很 多 用 户 代 
码 ; 最 后 ，Puma2 在 故障 时 会 产生 少量 重复 数据 ， 因 为 HBase 的 Increment 和 PTail 的 Checkpoint 并 不 是 一 个 原子 操作 。 


但 值得 一 提 的 是 ，Puma 并 没有 开源 出 来 ， 读 者 可 以 了 解 和 借鉴 其 实现 原理 。 


(3) Yahoo! S4 


Yahoo! S4 (Simple Scalable Streaming System) 是 一 个 通用 的 、 分 布 式 的 、 可 扩展 的 、 分 区 容错 的 、 可 插 拔 的 流 式 系统 。 基 于 S4 框 架 ， 开 发 者 可 以 容易 地 开发 面向 持续 流 数据 处 理 的 应 用 。S4 的 


Ej 


最 新 版 本 是 v0.6.0， 是 Apache 贸 化 项 目 ， 其 设计 特点 有 以 下 几 个 方 


| Actor 计 算 模型 : 为 了 能 在 普通 机 型 构成 的 集群 上 进行 分 布 式 处 理 ， 并 且 集 群 内 部 不 使 用 共享 内 存 ，S4 架 构 采 用 了 Actor 模 式 ， 这 种 模式 提供 了 封装 和 地 址 透明 语义 ， 因 此 在 允许 应 用 大 规模 并 发 的 同 
时 ， 也 提供 了 简单 的 编程 接口 。S4 系 统 通过 处 理 单元 (ProcessingElement，PE) 进行 计算 ， 消 息 在 处 理 单元 间 以 数据 事件 的 形式 传送 ，PE 消 费事 件 ， 发 出 一 个 或 多 个 可 能 被 其 他 PE 处 理 的 事件 ， 或 者 直接 发 
结果 。 每 个 PE 的 状态 对 于 其 他 PE 不 可 见 ，PE 之 间 唯 一 的 交互 模式 就 是 发 出 事件 和 消费 事件 。 


“ 对 等 集群 架构 : S4 采 用 对 等 架构 ， 集 群 中 的 所 有 处 理 节点 都 是 等 同 的 ， 没 有 中 心 控 制 节点 ， 这 使 得 集群 的 扩展 性 很 好 ， 处 理 节点 的 总 数理 论 上 无 上 限 ; 同时 ，S4 将 没有 单 点 容错 的 问题 。 
“ 可 播 拔 架构 : S4 系 统 使 用 Java 语 言 开发 ， 采 用 了 极 富 层次 的 模块 化 编程 ， 每 个 通用 功能 点 都 尽量 抽象 出 来 作为 通用 模块 ， 而 且 尽 可 能 地 让 各 模块 实现 可 定制 化 。 


“ 支持 部 分 容错 : 基于 ZooKeeper 服 务 的 集群 管理 层 将 会 自动 路 由 事件 从 失效 节点 到 其 他 节点 。 除 非 显 式 保存 到 持久 性 存储 ， 否 则 节点 故障 时 ， 节 点 上 处 理事 件 的 状态 会 丢失 。 


S4 的 重要 应 用 场景 就 是 点 击 通过 率 (CTR) 预 估 这 类 应 用 。CTR 是 广告 点 击 数 除 以 展现 数 得 到 的 比率 ， 当 拥有 了 足够 历史 的 展现 和 点 击 数据 后 ，CTR 是 用 户 点 击 广告 可 能 性 的 一 个 很 好 的 估算 ， 精 确 的 


来 源 点 击 对 于 个 性 化 和 搜索 排名 来 说 都 价值 无 限 。 据 $4 的 开发 者 称 ， 在 线 流量 上 的 实验 显示 基于 S4 系 统 的 新 CTR 计 算 框架 可 以 在 不 影响 收入 的 前 提 下 将 CTR 值 提高 3%， 这 主要 是 通过 快速 检测 低 质 量 的 广告 


并 把 它们 过 滤 出 去 而 获得 的 收益 。54 系 统 提供 的 低 延 迟 处 理 能 够 使 得 商务 广告 部 门 获 益 ， 但 是 潜在 的 风险 也 不 能 忽视 ， 那 就 是 事件 流 的 速率 快 到 一 定 程度 后 ，S4 可 能 无 法 处 理 ， 会 导致 事件 的 丢失 。 如 图 8- 


4 所 示 。 


每 秒 事件 数 | CTR 相 关 错误 | 事件 流 处 理 速度 (Itbps) 


图 8-4 S4 在 流量 压力 测试 下 的 事件 丢失 情况 


(4) Alibaba JStorm 


JStorm 是 一 个 Alibaba 开 源 的 分 布 式 实时 计算 引擎 ， 可 以 认为 是 Twitter storm 的 Java 版 本 ， 用 户 按照 指定 的 接口 实现 一 个 任务 ， 然 后 将 这 个 任务 递交 给 JStorm 系 统 ，JStorm 会 启动 后 台 服 务 进程 7x24 
小 时 运行 ， 一 旦 某 个 Worker 发 生 故 障 ， 调 度 器 立即 分 配 一 个 新 的 Worker 蔡 换 这 个 失效 的 Worker。 


Æ 


JStorm 处 理 数据 的 方式 是 基于 消息 的 流水 线 处 理 ， 
于 下 面 的 场景 中 : 


tsi 


此 特别 适合 无 状态 计算 ， 也 就 是 计算 单元 所 依赖 的 数据 全 部 在 接收 的 消息 中 可 以 找到 ， 并 且 最 好 一 个 数据 流 不 依赖 另外 一 个 数据 流 。 因 此 ，JStorm 


“日 志 分 析 。 从 日 志 中 分 析出 特定 的 数据 ， 并 将 结果 存 入 外 部 存储 器 如 数据 库 。 


' 管道 系统 。 将 一 个 数据 从 一 个 系统 传输 到 另外 一 个 系统 ， 比 如 将 数据 库 同步 到 Hadoop。 


: 消息 转化 器 。 将 接收 的 消息 按照 菜 种 格式 进行 熙 


“ 统计 分 析 器 。 从 日 志 或 消息 中 提炼 出 某 个 字段 ， 


直人 化 ， 存 储 到 另外 一 个 系统 如 消息 中 间 件 。 


然后 做 COUNT 或 SUM 计 算 ， 最 后 将 统计 值 存 入 外 部 存储 器 。 


但 是 ，JStorm 的 活跃 度 并 不 高 ， 截 止 到 编写 本 章 时 ， 整 个 JStorm 项 目 共 提交 过 36 次 ， 并 且 只 有 1 个 Committer， 相 比 Twitter Storm， 不 管 是 活跃 度 还 是 认可 度 上 都 不 是 一 个 数量 级 的 产品 。 


(5) IBM Streambase 


StreamBase 是 1BM 开 发 的 一 款 商 业 流 式 计算 系统 ， 应 用 于 金融 行业 和 政府 部 门 ， 其 本 身 是 商业 应 用 软件 ， 但 提供 了 Develop Edition。 相 对 于 需要 付费 才能 使 用 的 Enterprise Edition， 开 发 版 的 功能 非 


" 
常 少 。 


StreamBase 使 用 java 开发 ，1DE 是 基于 Eclipse 进 : 


行 二 次 开发 ， 功 能 很 强大 。StreamBase 也 提供 了 相当 多 的 Operator、Functor 以 及 其 他 组 件 来 帮助 构建 应 用 程序 。 用 户 只 需要 通过 |DE 拖 拉 控 件 ， 然 后 


关联 一 下 ， 设 置 好 传输 的 Schema 并 且 设 置 一 下 控件 计算 过 程 ， 就 可 以 编译 出 一 个 高 效 处 理 的 流 式 应 用 程序 了 。 同 时 ，StreamBase 还 提供 了 类 SQL 语 言 来 描述 计算 过 程 。 


(6) HStreaming 


HStreaming 是 建立 在 Hadoop 上 的 可 扩展 的 、 可 持续 的 数据 分 析 系 统 。 它 可 以 分 析 、 可 视 化 并 处 理 大 量 连续 数据 ， 比 如 一 个 金融 交易 系统 实时 展示 数据 图 。HStreaming 由 Jana Uhlig 与 Volkmar 


Uhlig 联 合 创立 ， 该 公司 没有 提供 相关 产品 的 开源 版 本 ， 从 网 站 信息 来 看 只 提供 相关 的 解决 方案 。 


HStreaming 公 司 尝 试 为 Hadoop 环 境 添加 一 个 实时 的 组 件 ， 当 数据 提交 到 系统 ， 在 存储 到 磁盘 之 前 就 会 进行 数据 的 处 理 ， 类 似 开 源 的 Storm 和 Kafka。 目 前 HStreaming 已 经 建立 了 一 个 完整 的 系统 ,该 
系统 能 够 利用 实时 的 引 警 来 处 理 视频 、 服 务 器 、 传 感 器 以 及 其 他 机 器 上 生成 的 数据 流 。 而 且 完 全 兼容 Hadoop 作 为 一 个 归档 和 批量 处 理 系统 。 


仅仅 只 能 进行 批 处 理 的 系统 转移 到 该 实时 系统 。 


3. 框 架 对 比 


使 用 HStreaming 的 Hadoop 用 户 不 需要 进行 任何 改变 ，HStreaming 能 够 通过 利用 相同 的 MapReduce 算 法 和 用 户 已 经 编写 好 的 Pig 脚 本 进行 流 处 理 。 在 实际 的 操作 过 程 中 ， 用 户 几 天 之 内 就 可 以 从 一 个 


实时 数据 流 计算 是 近年 来 分 布 式 、 并 行 计算 领域 研究 和 实践 的 重点 ， 无 论 是 工业 界 还 是 学 术 界 ,诞生 了 多 个 具有 代表 性 的 数据 流 计算 系统 ， 用 于 解决 实际 生产 问题 和 进行 学 术 研 究 。 不 同 的 系统 满足 不 
同 应 用 的 需求 ， 系 统 并 无 好 坏 之 分 ， 关 键 在 于 服务 的 对 象 。 图 8-5 从 各 个 方面 比较 了 典型 的 三 个 数据 流 计算 系统 Puma、Storm 和 S4， 因 为 Streambase 是 厂商 发 行 的 商用 版 本 ，HStreaming 只 提供 解决 方 
案 ， 而 JStorm 和 Storm 非 常 相似 ， 所 以 这 几 种 产品 并 没有 罗列 在 图 中 。 


恢复 时 间 
状态 持久 存储 


ava 
P 
否 
对 称 
低 


5 
得 KE 


图 8-5 Puma、Storm 和 S4 三 种 数据 流 计算 系统 对 比 


um — Ek E - 
k — gm E - 


到 8-5 从 开发 语言 、 高 可 用 机 制 、 支 持 精确 恢复 、 
Java 语 言 开 发 ， 另 一 个 系统 使 用 函数 式 编程 语言 Cloj 


当 备 机 ; 而 Storm 选 择 了 更 简单 可 行 的 上 游 回 放 方 式 ， 资 源 使 用 率 高 ， 就 是 恢复 时 间 可 能 稍 长 些 ，Puma 和 5S4 都 支持 状态 持久 化 ， 但 54 目 前 不 支持 数据 去 重 ， 未 来 可 能 会 实现 ， 三 个 系统 都 做 不 到 精确 恢 


复 ， 即 恢复 后 的 执行 结果 和 无 故障 发 生 时 保持 一 致 ， 


8.14 ”背景 与 需求 描述 


主 从 架构 、 资 源 利用 率 、 恢 复 时 间 、 支 持 状态 持久 化 及 支持 去 重 等 几 个 方面 对 这 三 个 系统 进行 了 对 比 。 可 以 看 到 : 为 了 实现 高 效 开 发 ， 两 个 系统 使 
ure; 都 采用 高 可 用 方案 ， 有 两 个 系统 使 用 Passive Standby 方 式 ， 系 统 恢复 时 间 可 控 ， 但 系统 复杂 度 增 加 ， 资 源 使 用 率 也 较 低 ， 因 为 需要 一 些 机 器 用 来 


因为 即使 是 Passive Standby 方 式 ， 也 只 是 定期 Checkpoint， 并 没有 跟踪 每 条 消息 的 执行 。 商 用 的 StreamBase 支 持 精确 恢复 ， 这 主要 应 用 于 金融 领域 。 


业务 场景 和 需求 决定 选用 何 种 技术 架构 ， 所 以 需要 对 这 两 方面 进行 细致 入 微 的 剖析 ， 下 面 的 内 容 将 详细 讲解 业务 背景 和 需求 描述 。 


1. 为 何 选用 流 处 理 框架 


现在 互联 网 广告 的 发 展 越 来 越 快 ， 数 据 规模 的 增长 也 越 来 越 迅速 ， 并 且 随 着 数据 规模 的 增长 ， 网 站 主 (媒介 ) 和 广告 主 的 需求 越 来 越 细 化 ， 对 产品 和 服务 的 质量 要 求 越 来 越 高 ， 特 别 是 广告 行业 中 ， 非 


常 多 的 业务 具备 实时 性 要 求 ， 这 对 整个 技术 体系 是 一 个 比较 大 的 挑战 。 


Hadoop 作 为 一 个 擅长 批量 离线 处 理 的 框架 ， 不 适合 海量 数据 的 实时 处 理 ， 应 该 借助 其 他 的 手段 或 者 工具 来 实现 这 一 目标 。 而 流 处 理 框架 的 出 现 恰恰 能 满足 这 一 点 ， 在 数据 出 现时 便 立 刻 对 其 进行 处 
理 ,发 生 一 个 事件 进行 一 次 处 理 ， 而 不 是 缓存 起 来 成 一 批 处 理 。 在 数据 流 模型 中 ， 需 要 处 理 的 输入 数据 (全 部 或 部 分 ) 并 不 存储 在 可 随机 访问 的 磁盘 或 内 存 中 ， 它 们 以 一 个 或 多 个 “连续 数据 流 ” 的 形式 到 


5 


所 以 ， 广 告 行业 中 需要 流 处 理 框架 的 支撑 ， 处 理 类 似 实时 库存 查询 、 实 时 竞价 、 实 时 业务 规则 更 改 部 署 等 需求 ， 缩 短 各 个 系统 模块 之 间 的 响应 时 间 间 隔 ， 使 得 反馈 更 及 时 、 准 确 ， 在 海量 数据 交互 的 前 


提 下 保证 最 大 化 广告 收益 。 
2. 广 告 展现 需求 
广告 展现 数据 是 广告 业务 中 最 核心 的 数据 之 一 ， 本 系统 中 对 广告 展现 需求 的 定义 如 下 : 


“ 按照 地 域 统计 展现 量 。 地 域 分 为 省 和 地 级 市 两 级 ， 两 个 级 别 单独 统计 ， 需 要 统计 每 个 广告 在 每 个 省 、 每 个 市 当前 ( 当天) 的 展现 量 。 如 下 面 的 数据 格式 : 


ad001 湖北 省 20140113 248001 
ad001 安阳 市 20140113 2892 


:按照 用 户 统计 展现 量 。 统 计 每 个 广告 在 某 个 用 户 的 当前 《当天 ) 的 展现 量 。 如 下 面 的 数据 格式 : 


ad001 28029SDFU-234AHQWEK-234A 20140113 8 


“ 按照 地 域 、 用 户 维度 周期 性 统计 。 按 照 地 域 、 用 户 维度 统计 每 个 广告 在 一 段 时 间 内 〈 例 如 一 个 月 ) 的 展现 量 趋势 。 


3. 广 告 点 击 需求 


广告 点 击 数据 也 是 广告 业务 中 最 核心 的 数据 之 一 ， 本 系统 中 对 广告 点 击 的 需求 比较 简单 ， 只 需要 在 用 户 维度 统计 每 个 广告 在 当前 (SEX) 的 点 击 量 。 数 据 格式 如 下 : 


ad001 20140113 2871 


8.2 ”概要 设计 


本 节 的 主要 内 容 是 把 需求 分 析 得 到 转换 为 软件 结构 和 数据 结构 ， 清 晰 化 设计 目标 ， 归 类 主要 实现 功能 ， 并 且 将 项 目 划分 模块 ， 建 立 模块 的 层级 关系 和 模块 间 的 接口 等 。 


8234 设计 目标 


本 章 介绍 的 广告 实时 计算 系统 ， 应 该 具备 下 面 的 四 个 方面 的 能 


“ 可 用 性 : 对 于 高 并 发 请 求 ， 可 能 会 存在 数据 丢失 或 者 连接 持续 等 待 直到 超时 异常 等 问题 ， 对 于 业务 的 实时 性 和 未 来 更 多 业务 的 支持 会 减弱 。 所 以 需要 系统 能 够 兼顾 高 并 发 的 峰值 情况 ， 保 证 瞬间 突 发 
性 情况 下 ， 系 统 能 “透明 ”、“ 平 稳 ” 运 行 。 这 就 要 求 系统 有 一 定 的 缓冲 能 力 。 


. 实时 性 : 因为 现 有 系统 仍然 没有 使 用 实时 计算 系统 ， 整 个 处 理 流程 的 延 时 在 小 时 级 别 ， 但 是 小 时 级 别 的 数据 处 理 过 度 已 经 不 能 满足 将 来 的 产品 需求 ， 业 务 线 对 于 实时 计算 的 需求 越 来 越 造 切 ， 所 以 系 
统 要 具体 实时 计算 和 响应 的 能 力 。 


“ 平台 通用 性 : 考虑 到 未 来 更 多 的 业务 需要 使 用 该 系统 ， 为 了 降低 使 用 的 复杂 度 和 维护 成 本 ， 需 要 封装 通用 接口 ， 对 所 有 业务 制定 统一 的 数据 接 入 格式 ， 并 保证 格式 的 可 扩展 性 。 


“ 扩展 性 : 要 求 系统 具备 水 平 扩展 能 力 ， 通 过 增加 节点 的 方式 解决 访问 性 能 的 瓶颈 问题 。 


8.2.2 主要 功能 


该 系统 目前 只 为 广告 业务 服务 ， 要 求 广告 展现 数据 和 广告 点 击 数 据 能 够 实时 地 反映 到 库存 系统 ， 库 存 系统 可 以 根据 现 有 投放 量 计算 之 后 的 投放 策略 。 


同时 ， 能 够 提供 某 些 广告 在 两 个 月 内 每 天 的 展现 量 统计 ， 并 且 可 以 分 省 份 、 地 市 和 用 户 三 个 维度 统计 。 


在 满足 上 面 功能 的 前 提 下 ， 对 系统 性 能 的 要 求 延 时 在 30 秒 内 ， 支 持 峰 值 在 TPSs= 5000 的 访问 请 求 。 


823 ”系统 架构 


根据 前 面 的 需求 分 析 、 设 计 目 标 和 主要 功能 的 要 求 ， 将 整个 广告 实时 计算 系统 划分 为 六 层 : 日 志 接收 层 、 生 产 者 层 、 消 息 队列 层 、 


冲 的 Kafka 框 架 ， 业 务 罗 辑 层 选用 流 计算 框架 Storm， 最 终结 果 存 储 层 选 用 HBase， 详 细 的 架构 如 图 8-6 所 示 。 


其 中 ， 广 告 实时 计算 系统 的 六 层 架 构 的 每 层 承担 的 角色 和 实现 原理 如 下 。 


1. 日 志 接收 层 


该 层 是 数据 源头 ， 通 过 日 志 接收 工具 生成 本 地 日 志文 件 。 常 用 的 接收 工具 包括 Scribe、Nginx、Syslog-ng 和 Apache Http Server 等 ， 接 收 后 这 些 数据 流 将 存储 到 本 地 磁盘 文件 中 。 


消费 者 层 、 业 务 逻 辑 层 和 存储 层 。 其 中 消息 队列 选 


2. 生 产 者 层 


该 层 是 数据 传输 层 ， 用 于 将 日 志文 件 从 本 地 发 送 到 Kafka 集 群 ， 实 时 监控 某 个 指定 的 文件 或 者 目录 ， 提 取 增 量 数据 传送 到 Kafka 集 群 。 
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图 8-6 广告 实时 计算 系统 
3 .消息 队列 层 


该 层 是 Kafka 集 群 ， 负 责 输入 数据 的 负载 均衡 、 消 息 缓冲 、 同 时 具备 高 吞吐 、 水 平 扩展 性 好 等 特性 。 消 息 队列 层 之 所 以 选择 Kafka， 是 因为 Kafka 侧 重 吞吐 量 的 特性 ， 并 且 具 备 缓冲 的 功能 。 


4. 消 费 者 层 
该 层 用 于 消费 Kafka 队 列 中 的 消息 ， 并 且 将 消息 输入 到 业务 逻辑 层 ， 是 承上启下 的 子 层 。 由 于 业务 逻辑 层 使 用 Storm 框 架 ， 所 以 消费 层 需要 连通 Kafka 和 Storm 两 个 集群 。 


5. 业 务 逻 辑 层 


该 层 是 实现 需求 的 重要 子 层 ， 使 用 storm 框架 ， 能 够 非常 方便 地 部 署 不 同 规则 的 业务 需求 ， 并 且 可 以 实现 快速 计算 。 


业务 逻辑 层 之 所 以 选择 Storm， 没 有 选择 其 他 的 流 处 理 框架 主要 是 因为 ， 相 比 S4 和 JStorm 两 个 框架 ，Storm 项 目 非常 活跃 ， 国 内 也 有 不 少 公司 已 经 在 生产 环境 使 用 ， 出 现 问题 能 够 得 到 最 快速 的 社区 支 
持 ， 并 且 其 他 两 个 开源 项 目 无 论 从 性 能 、 稳 定性 上 比 之 Storm 并 没有 什么 优势 。 


区 


6 .存储 层 


目标 存储 为 HBase， 可 以 满足 实时 查询 或 者 某 些 特定 业务 场景 的 需求 ， 也 可 以 满足 水 平 扩展 的 需求 。 


83 详细 设计 
本 节 主 要 介绍 如 何 设计 每 个 模块 的 实现 算法 、 所 需 数据 的 逻辑 结构 。 目 标 是 实现 主要 模块 功能 的 算法 逻辑 ， 并 且 算法 描述 需要 简明 易 懂 。 
83.1 AE 


为 了 满足 最 终结 果 的 实时 查询 和 周期 性 统计 需求 ， 将 结果 数据 存储 在 HBase 中 ， 首 先 需 要 定义 表 的 结构 。 因 为 数据 包括 广告 展现 和 广告 点 击 两 类 无 关联 的 数据 ， 并 且 业 务 方向 也 不 同 ， 所 以 需要 创建 两 
个 表 来 存储 这 两 类 数据 的 统计 结果 。 


1. 广 告 实时 展现 统计 表 


广告 实时 展示 统计 表 的 结构 设计 如 表 8-1 所 示 。 


表 8-1 广告 实时 展现 统计 表 结构 


结构 值 
表 名 realtime adpv stat 
ADID 省 名 称 20140113 
行 键 ADID 市 名 称 20140113 
ADID UID 20140113 
列 族 pv 
列 名 cnt 


其 中 ， 行 键 的 设计 非常 关键 ， 该 表 包 含 三 种 类 型 的 行 键 ， 分 别 以 省 名 称 、 市 名 称 和 UID 作 为 区 分 ， 
示例 ， 其 中 value 字 段 采用 十 六 进 制 字 节 码 表示 ， 是 长 整 型 。 


于 更 高 效 地 统计 这 三 个 维度 的 数据 ; 列 族 和 列 的 数量 都 是 1。 下 面 是 广告 实时 展示 统计 表 的 一 行 数据 


29260 (2EEBEE83-EEEA4-EAE6-1F0D-A27AB14549FC) 20140117 column-pv: cnt, timestamp- 


1390361754783, value-Vx00Nx00 x00 x00 x00 x00 V x00 Nx02 


2. 广 告 实时 点 击 统计 表 


广告 实时 点 击 统计 表 的 结构 设计 如 表 8-2 所 示 。 


表 8-2 广告 实时 


点 击 统计 表 结构 


表 结 构 值 
表 名 realtime adclick stat 
行 键 ADID 20140113 
列 族 clk 
列 名 cnt 


相 比 广告 实时 展现 统计 表 ， 实 时 点 击 统计 表明 显 简单 一 些 ， 
十 六 进 制 字 节 码 表示 ， 它 是 长 整 型 。 


行 键 只 有 一 种 类 型 : ADID 加 上 日 期 ， 


Value 字段 采 上 


很 常规 的 一 种 设计 方式 ; 列 族 和 列 的 数量 都 是 1|。 下 面 是 广告 实时 点 击 统计 表 的 一 行 数据 示例 ， 其 中 


36713_20140117 column-clk: cnt, timestamp=1390374472691， 
value-Wx00Nx00Nx00 x00 Nx00Nx00 Vx00Nx06 


8.32 ”功能 模块 设计 


在 整个 实时 计算 系统 中 ， 日 志 接收 层 是 对 现 有 接收 日 志 进 行 操作 ， 不 涉及 部 署 日 志 收 集 系 统 的 步 


需要 额外 的 开发 工作 。 所 以 ， 本 模块 将 重点 介绍 Kafka 生 产 者 、 消 费 者 与 业务 逻辑 模块 实现 。 
1.Kafka 生 产 者 
生产 者 


(1) 监控 读 取 日 志文 件 


， 消 息 队 列 层 、 业 务 逻 辑 层 和 存储 层 等 三 层 只 需 


搭建 对 应 的 Kafka、Storm 和 HBase 分 布 式 集群 ， 不 


于 将 日 志 采 集 节点 上 的 日 志 流 数据 发 送 到 Kafka 消 息 队 列 中 ， 生 产 过 程 包括 监控 读 取 日 志文 件 、 连 接 Kafka、 发 送 数据 等 几 个 部 分 ， 每 个 部 分 的 细节 介绍 如 下 。 


该 模块 需要 监控 日 志 采 集 节 点 的 本 地 日 志文 件 或 目录 ， 检 测 到 文件 或 目录 是 否 发 生变 化 ， 如 果 发 生 ， 则 将 变化 的 部 分 逐 行 读 取 到 内 存 中 。 如 果 文 件 和 目录 没有 发 生变 化 ， 则 延长 检测 时 间 ， 等 待 下 一 次 


循环 中 重复 这 些 操作 。 


实现 过 程 中 需 
选 队列 中 剔除 。 这 部 分 代码 是 Kafka 生 产 者 中 逻辑 最 复杂 的 。 


(2) 连接 Kafka 


监控 目录 或 者 目录 下 的 子 目录 ， 并 且 是 周期 性 循环 监控 ,例如 3 秒 监控 一 次 。 如 果 存 在 没有 检测 的 文件 ， 则 添加 到 处 理 队列 ， 同 时 ， 如 果 队列 中 的 某 个 文件 长 时 间 没 有 发 生变 化 ， 则 从 候 


该 模块 直接 连接 Kafka 集 群 ， 即 通过 ZooKeeper 连 接 。 实 现 过 程 中 需要 使 用 Kafka 中 生产 者 对 应 的 客户 端 AP1， 设 定 每 次 发 送 缓存 的 数量 、 是 否 压缩 、 超 时 时 间 等 配置 信息 ， 并 创建 相应 的 实体 类 用 于 发 


送 操作 。 

(3) 发 送 数据 

该 模块 用 于 将 已 经 获取 的 发 生变 化 的 数据 ， 通 过 连接 上 的 客户 端 ， 发 送 到 Kafka 集 群 中 ， 其 实 是 调 
负载 由 Kafka 集 群 自己 维护 ， 用 户 并 不 需要 自己 实现 负载 均衡 的 代码 。 

2. 消 费 者 与 业务 逻辑 模块 


消费 者 与 业务 逻辑 模块 虽然 包含 两 个 部 分 ， 但 是 storm-kafka 中 间 件 已 经 实现 了 Kafka 集 群 到 storm 集群 的 连通 ， 通 过 该 中 间 件 ， 上 


Storm-kafka 已 经 实现 了 从 Kafka 集 群 中 消费 数据 的 模块 ， 即 Kafka 消 费 者 ， 用 户 只 需要 配置 Kafka 集 群 的 主机 名 、 端 口 、Topic 等 信息 。 业 务 逻 辑 部 分 需 
户 所 需要 实现 的 是 Topology 中 的 Bolt。 


Topology。Storm-kafka 已 经 实现 了 定义 输入 源 的 Spout， 即 kafkaSpout， F} 


Kafka 客 户 端 API 生 产 者 的 发 送 方法 ， 参 数 是 要 发 送 的 数据 。 写 入 Kafka 的 过 程 是 推送 的 过 程 ， 写 入 


户 只 需要 编写 业务 逻辑 相关 的 代码 ， 并 不 需要 再 实现 消费 者 代码 。 


户 实现 ， 针 对 不 同业 务 需求 实现 对 应 的 


对 于 广告 展现 统计 和 广告 点 击 统计 的 业务 需求 ， 结 合 实现 的 功能 和 表 结 构 设计 ， 合 理 的 方式 将 业务 逻辑 过 程 分 为 两 个 步骤 ， 即 两 个 Bolt。 第 一 个 Bolt 负 责 将 原始 记录 转换 为 表 结构 设计 中 的 行 键 的 格 


式 ， 提 取 相 关 字 段 后 组 合 ; 第 二 个 Bolt 负 责 将 数据 写 入 HBase， 将 增 量 值 更 新 到 计数 的 字段 。 


另外 ， 还 需要 实现 Topology 的 主 方法 ， 即 入 口 类 。 该 类 中 将 定义 Kafka 相 关 的 配置 信息 、Topology 的 逻辑 结构 、 任 务 运行 信息 以 及 提交 Topology 等 。 


8.4 核心 功能 实现 


本 节 将 详细 介绍 如 何 具体 实现 各 个 核心 模块 ， 着 重 讲解 ZooKeeper、Kafka 和 Storm 等 集群 的 安装 、 部 署 ， 以 及 实现 Kafka 生 产 者 和 storm 拓扑 结构 逻辑 ， 并 且 通 过 详细 的 代码 示例 和 图 示 ， 以 丰富 讲解 
内 容 和 降低 理解 难度 。 


8.4.1 规划 集群 环境 部 署 


本 章 介绍 的 项 目 使 用 了 多 个 分 布 式 系统 ， 所 以 在 项 目 部 署 方 面 比较 复杂 ， 为 了 方便 开发 测试 ， 需 要 搭建 开发 测试 环境 。 图 8-7 是 项 目 开发 阶段 所 需要 的 部 署 环境 。 


ZooKeeper 


Kafka 


HDFS 


图 8-7 广告 实时 计算 系统 测试 集群 部 署 示意 图 


在 图 8-7 中 ， 该 测试 环境 有 三 台 物理 节点 : test1、test2 和 test3， 纵 向 是 每 个 节点 所 启动 的 服务 进程 ， 横 向 是 每 个 分 布 式 框架 对 应 的 服务 进程 。 从 图 中 可 以 得 知 ，ZooKeeper 是 共享 集群 ，HBase、 
Storm、Kafka 三 个 集群 都 需要 ZooKeeper 作 为 消息 通信 和 协调 的 基础 组 件 。Kafka 也 是 “无 主 ”状态 ， 在 三 个 节点 上 的 部 署 和 配置 都 相同 。 而 Storm、HBase 和 HDFS 都 是 “有 主 ” 状 态 ， 每 个 系统 的 主 服 


本 章 所 有 讲解 都 基于 以 上 三 个 节点 ， 这 些 节点 已 经 成 功 安装 Linux 操 作 系统 、HDFS 和 HBase， 并 且 系 统 比较 干净 ， 没 有 启动 其 他 应 用 服务 程序 。 而 本 节 的 重点 是 介绍 实时 计算 相关 的 产品 和 应 用 ， 例 如 
Kafka、Storm 以 及 HBase 等 。 


需要 读者 注意 的 是 ， 该 配置 结构 不 能 应 用 于 生产 环境 ， 因 为 实时 计算 系统 非常 注重 “实时 ”的 特性 ， 而 这 种 配置 很 可 能 会 造成 单个 节点 负载 和 1/O 非 常 高 而 成 为 系统 的 瓶颈 ， 应 该 将 这 些 集 群 互相 拆 开 ， 
FA RRE” WOR. 真正 的 生产 环境 部 署 ， 应 该 是 ZooKeeper 独 立 出 来 作为 共享 物理 集群 ， 生 产 环 境 的 其 他 业务 也 可 以 共享 zooKeeper。HBase 和 HDFS 是 在 一 起 的 ， 需 要 通过 单独 的 一 个 物理 集群 来 
保证 独立 性 ， 毕 竟 HBase 不 仅仅 提供 数据 写 入 ， 读 请 求 也 是 需要 保证 的 。Kafka 和 Storm 独 立 为 两 个 物理 集群 ， 所 以 整个 生产 环境 部 署 ， 需 要 四 个 分 布 式 独立 的 物理 集群 。 


为 了 使 部 署 图 清晰 流畅 ， 图 中 没有 标注 生产 者 、 消 费 者 和 业务 逻辑 处 理 等 模块 ， 这 些 模块 在 下 面 的 内 容 中 会 详细 讲解 。 图 中 部 署 的 所 有 服务 进程 都 使 用 Hadoop 用 户 启动 ， 其 中 基础 框架 的 版 本 分 别 
是 : 


: Hadoop: 1.2.1 
: HBase: 0.94.18 
: JDK: 1.6.0 45 


* ZooKeeper: 3.4.5 


实际 上 ， 在 整个 项 目 调研 和 开发 过 程 中 ， 最 困难 的 是 Kafka、Storm 和 Storm-kafka 等 三 者 版 本 的 选择 搭配 ， 因 为 它们 分 别 基于 不 同 的 语言 开发 ， 例 如 Kafka 是 基于 Scala 语 言 开发 ，Storm 是 基于 
Clojure 和 Java 语 言 开 发 ， 而 Storm-kafka 是 基于 Java 语 言 开 发 ， 虽 


然 这 几 种 语言 都 基于 JVM ， 但 是 也 在 不 同 程度 上 增加 了 程序 运行 和 维护 的 复杂 性 。 同 时 Storm 这 个 工程 的 Release 版 本 和 开发 版 本 特别 
多 ,需要 选择 出 相互 兼容 匹配 且 性 能 稳定 的 版 本 。 经 过 各 种 调研 和 测试 ， 发 现下 面 版 本 的 组 合 是 稳定 且 比 较 成 熟 的 : 


* Kafka: 0.7.2 
“ Storm: 0.8.2 


* Storm-kafka: 0.8.0-wip4 


下 面 的 开发 测试 过 程 都 是 基于 上 面 罗列 的 版 本 ， 除 非特 别 声明 外 ， 在 接 下 来 的 讲解 中 不 再 缆 述 。 


84.2 ”安装 ZooKeeper 集 群 


由 于 HBase、Kafka 和 Storm 都 使 
ZooKeeper 集 群 ， 官 方 推荐 的 最 小 节点 数 为 三 个 。 所 以 ， 本 案例 中 使 


1. 下 载 官方 源码 


从 镜像 网 站 下 载 ZooKeeper 包 ， 并 且 将 其 解压 安装 ， 


体操 作 代码 如 下 : 


ZooKeeper 共 享 集群 ， 大 多 数 情况 下 ， 单 个 节点 的 ZooKeeper 集 群 可 以 单独 胜任 这 些 应 用 ， 但 是 为 了 确保 故障 恢复 或 者 部 署 大 规模 集群 ， 可 能 需要 更 大 规模 节点 的 
test1、test2 和 test3 三 台 节 点 部 署 ZooKeeper， 每 台 节 点 上 都 需要 安装 ， 其 安装 部 署 过 程 如 下 。 


# 下 载 、 解 压 


wget http://mirror.bjtu.edu.cn/apache/zookeeper/zookeeper-3.4.5/zookeeper-3.4.5.tar.gz 


mkdir -p /opt/modules 


mv zookeeper-3.4 
tar -zxvf zookee| 


.5.tar.gz /opt/modules/ 
per-3.4.5.tar.gz 


ln -s /opt/modules/zookeeper-3.4.5 /opt/modules/zookeeper 
# 日 志 路 径 ， 配 置 文件 


mkdir -p /var/lo 
mkdir /tmp/zooke 


g/zookeeper 
eper 


2. 配 置 ZooKeeper 属 性 文件 


根据 ZooKeeper 集 群 节点 情况 ， 创 建 ZooKeeper 配 置 文件 conf/zoo.cfg 后 ， 将 基本 配置 添加 到 配置 文件 中 。 


(1) 配置 服务 器 核心 属性 


使 用 复制 命令 生成 配置 文件 ， 代 码 如 下 : 


cd conf 
cp zoo sample.cf 


g zoo.cfg 


然后 将 下 面 的 代码 追加 到 配置 文件 zoo.cfg 中 : 


tickTime=2000 
clientPort-2181 
initLimit-5 
syncLimit-2 


server.l-testl: 2888: 3888 
server.2-test2: 2888: 3888 
server.3-test3: 2888: 3888 


其 中 ， 每 项 参数 的 含义 如 下 : 


“ tickTime: 这 个 时 间 是 作为 ZooKeeper 服 务 器 之 间或 客户 端 与 服务 器 之 间 维 持 心跳 的 时 间 间 隔 ， 也 就 是 每 个 tickTime 时 间 就 会 发 送 一 个 心跳 。 


“ clientPort: 这 个 端口 就 是 客户 端 连 接 ZooKeepet 服 务 器 的 端口 ，ZooKeeper 会 监听 这 个 端口 ， 接 受 客户 端的 访问 请 求 。 


“initLimit: 这 个 配置 项 是 用 来 配置 ZooKeeper 接 受 客户 端 (这 里 所 说 的 客户 端 不 是 用 户 连接 ZooKeepet 服 务 器 的 客户 端 ， 而 是 ZooKeepet 服 务 器 集群 中 连接 到 Leader 的 Followetr 服 务 器 ) 初始 化 连接 时 最 长 
能 忍受 多 少 个 心跳 时 间 间 隔 数 。 当 已 经 超过 5 个 心跳 的 时 间 (也 就 是 tickTime) 长 度 后 ZooKeeper 服 务 器 还 没有 收 到 客户 端的 返回 信息 ， 那 么 表明 这 个 客户 端 连接 失败 。 总 的 时 间 长 度 就 是 (5X2000) 10 秒 。 


“syncLimit: 这 个 配置 项 标识 Leader 与 Follower 之 间 发 送 消息 ， 请 求 和 应 答 时 间 长 度 ， 最 长 不 能 超过 多 少 个 tickTime 的 时 间 长 度 ， 总 的 时 间 长 度 就 是 (2X2000) 4 秒 。 


“ server.A=B:C:D: 其 中 A 是 一 个 数字 ， 表 示 这 个 是 第 几 号 服务 器 ; B 是 这 台 服 务 器 的 IP 地 址 ; C 表 示 的 是 这 台 服 务 器 与 集群 中 的 Leader 服 务 器 交换 信息 的 端口 ; D 表 示 的 是 万 一 集群 中 的 Leader 服 务 器 停机 
了 ， 需 要 一 个 端口 来 重新 进行 选举 ， 选 出 一 个 新 的 Leader， 而 这 个 端口 就 是 用 来 执行 选举 时 服务 器 相互 通信 的 端口 。 如 果 是 伪 集 群 的 配置 方式 ， 由 于 B 都 一 样 ， 所 以 不 同 的 ZooKeeper 实 例 通信 端口 不 能 一 
样 ， 所 以 要 给 它们 分 配 不 同 的 端口 。 


接 下 来 ， 添 加 myid 文 件 ， 在 dataDir 


myid 文 件 中 的 值 是 1、2 和 3。 节 点 test1 的 myid 文 件 的 操作 代码 如 下 : 


录 (默认 是 /tmp/zookeeper) 下 创建 myid 文 件 ， 文 件 中 只 包含 一 行 ， 且 内 容 为 该 节点 对 应 的 server.id 中 的 id 编号 。 例 如 ，test1、test2 和 test3 在 分 别 对 应 的 


# 创 建文 件 myid 


vi /tmp/zookeeper/myid 
#4 将 个 面 的 数字 洲 训 到 女 伴 中 
二 


(2) 配置 日 志 打 印 属性 


默然 日 志 是 放 到 当前 目录 下 的 zookeeper.out 文 件 中 ， 而 在 一 般 情况 下 需要 将 日 志 输 出 到 指定 的 文件 路 径 下 ， 以 便于 查看 和 日 志 收 集 。 下 面 的 操作 都 是 在 ZooKeeper 的 安装 主 目录 下 进行 的 。 


首先 ， 修 改 bin/zkEnv.sh， 将 下 面 代码 添加 到 脚本 主体 的 开头 部 分 : 


ZOO LOG DIR-/var/log/zookeeper 


默认 情况 下 日 志 输出 到 CONSOLE， 关 闭 ROLLINGFILE， 需 要 打开 文件 输出 到 ROLLINGFILE， 并 修改 


志 级 别 为 INFO， 修 改 conf/log4j.properties: 


zookeeper.log.dir-. 
zookeeper.tracelog.dir-. 


将 上 面 对 应 的 代码 修改 为 下 面 的 内 容 : 


zookeeper.log.dir-/var/log/zookeeper 
zookeeper.tracelog.dir-/var/log/zookeeper 


将 下 面 的 代码 使 


WERE: 


10g4j.rootLogger-$ (zookeeper.root.logger] 


将 下 面 的 代码 最 前 面 的 # 号 去 掉 : 


#log4j.rootLogger=TRACE, CONSOLE,  ROLLINGFILE, 


TRACEFILE 


同时 修改 文件 的 权限 ， 


因为 需要 


hadoop 


户 启动 ， 将 所 有 ZooKeeper 相 关 的 文件 目录 的 所 有 者 和 组 都 修改 为 hnadoop:hadoop， 代 码 如 下 : 


chown -R hadoop: hadoop /opt/modules/zookeeper* 
chown -R hadoop: hadoop /var/log/zookeeper 
chown -R hadoop: hadoop /tmp/zookeeper 


3. 启 动 ZooKeeper 集 群 


登录 test1、test2 和 test3 三 个 节点 ， 进 入 ZooKeeper 安 装 主 目录 ， 执 行 下 面 代码 中 的 命令 : 


su hadoop 
bin/zkServer.sh start 


使 


下 面 的 ZooKeeper 客 户 端 命令 可 以 测试 服务 是 否 可 用 : 


bin/zkCli.sh -server 127.0.0.1: 2181 


如 果 安 装 并 启动 成 功 ， 执 行 上 面 的 命令 进入 交互 终端 ， 输 入 help 命 令 会 得 到 如 下 的 输出 信息 : 


[zk: 127.0.0.1: 2181 (CONNECTED) 1] help 
ZooKeeper -server host: port cmd args 

connect host: port 

get path [watch] 

ls path [watch] 

set path data [version] 

rmr path 

delquota [-n|-b] path 

quit 

printwatches on|off 

create [-s] [-e] path data acl 

stat path [watch] 

close 

ls2 path [watch] 

history 

listquota path 

setAcl path acl 

getAcl path 

sync path 

redo cmdno 

addauth scheme auth 

delete path [version] 

setquota -n|-b val path 


[zk: 127.0.0.1: 2181 (CONNECTED) 2] ls / 
[kafkastorm, consumers, storm, hbase, brokers, 
[zk: 127.0.0.1: 2181 (CONNECTED) 3] 


zookeeper] 


Erb, [2k:127.0.0.1:2181 (CONNECTED) 2] 前 缀 表示 已 经 成 功 连接 ZooKeeper，help 命 令 表示 查看 当前 交互 客户 端 支持 的 命令 ，|s/ 命 令 表示 查看 当前 ZooKeeper 的 根 目 


录 结 构 。 


Qus ZooKeeper 运 行 过 程 中 会 在 dataDir 目 录 下 生成 很 多 日 志和 快照 文件 ， 而 ZooKeeper 运 行进 程 并 不 负责 定期 清理 合并 这 些 文件 ， 导 致 占用 大 量 磁盘 空间 。 因 此 ， 需 要 通过 Cronjob 等 方式 定期 清除 


过 期 的 日 志和 快照 文件 。 


8.4.3 ”安装 Kafka 分 布 式 集群 


Kafka 集 群 的 安装 部 署 相对 简单 ， 但 是 需 
细 讲 解 Kafka 的 安装 和 部 署 过 程 。 


1. 安 装 Kafka 


三 个 节点 都 已 经 连接 互联 网 ， 


因为 Kafka 需 要 使 


sbt (一 个 


安装 Kafka 只 需要 三 步 操 作 : 下 载 、 更 新 和 编译 打包 ， 下 面 介绍 详细 流程 。 


(1) 下 载 Kafka 源 码 


通过 下 面 的 命令 从 Apache 官 方 网 站 下 载 Kafka-0.7.2 的 源码 ， 并 且 解 压 : 


于 构建 Scala 和 Java 项 


的 工 


) 升级 和 打包 ， 这 两 项 操作 都 需要 连接 互联 网 。 下 面 的 内 容 将 详 


wget http://archive.apache.org/dist/kafka/old releases/kafka-0.7.2-incubating/ 


kafka-0.7.2-incubating-src.tgz 
mv kafka-0.7.2-incubating-src.tgz /opt/modules/ 
tar -zxvf kafka-0.7.2-incubating-src.tgz 
1n -s /opt/modules/kafka-0.7.2-incubating-src /op 


'tt/modules/kafka 


(2) 更 新 Kafka 依 赖 库 


进入 Kafka 解 压 后 的 目录 ， 执 行 sbt update 命 令 ，sbt 会 自 


动 到 远 端 Maven 库 和 Scala 官 方 库 里 去 查找 相关 JAR 包 并 下 载 到 有 


户主 目录 的 .ivy2 目 录 下 。 执 行 命令 如 下 : 


./sbt update 


如 果 出 现 类 似 下 面 的 代码 ， 表 示 更 新 成 功 : 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 


info] == Kafka / update == 
success] Successful. 

info] 

info] Total time: 
info] 

info] Total session time: 253 s, completed Jan 
success] Build completed successfully. 


173 s, completed Jan 17, 


2014 7: 47: 24 PM 


17, 2014 7: 47: 24 PM 


(3) 编译 打包 Kafka 


同样 ， 在 Kafka 主 目录 下 ， 使 


sbt 更 新 完成 后 ， 执 行 sbt package 命 令 ， 将 更 新 后 的 Kafka 编 译 打包 ， 命 令 如 下 : 


./sbt package 


如 果 出 现 类 似 下 面 的 代码 ， 表 示 打 包 成 功 : 


[info] == Kafka / package 一 

[success] Successful. 

[info] 

[info] Total time: 115 s, completed Jan 17, 2014 7: 50: 45 PM 

[info] 

[info] Total session time: 116 s, completed Jan 17, 2014 7: 50: 45 PM 
[success] Build completed successfully. 


2. 配 置 Kafka 


在 Kafka 根 目录 下 ， 文 件 config/server.properties 是 Kafka 服 务 端 配置 文件 ， 其 所 有 属性 的 含义 和 属性 设置 值 如 表 8-3 所 示 。 其 中 ， 标 有 下 划 线 部 分 的 属 
值 是 设置 后 的 值 。 其 他 参数 的 值 都 保持 默认 值 不 变 。 


性 参数 属于 改动 的 参数 ， 这 些 参 数 对 应 第 二 列 的 


%8-3 Kafka-0.7.2 配 置 属性 列表 


配置 参数 解释 说 明 是 否 必须 配置 


一 的 数字 


brokerid 整 型 数字 


TER 
hostname InetAddress.getLocalHost() 当前 服务 硕 的 IP 可 选 ， 最 好 进行 设置 


port 必需 
num.threads 默认 为 服务 器 CPU 的 数量 

log.dir 

num.partitions 10 来 配置 ， 有 多 人 少 个 partition ， 


个 consumer Grou 最 多 有 几 个 


否 开 局 ZooKeeper 的 支持 ， 当 
enable.zookeeper true - 
然 为 true 
ooKee fü hb. ixi 


zk.connect test1:2181.test2:2181.test3:2181 


然后 配置 日 志文 件 ， 将 confWlog4j,properties 文 件 中 的 配置 属性 蔡 换 为 如 下 代码 : 


log4j.rootLogger-INFO, stdout 

kafka.log.dir-/var/log/kafka 
$10g4j.appender.stdout-org.apache.10g4j.ConsoleAppender 
$10g4j.appender.stdout.layout-org.apache.10g4j.PatternLayout 
410g4j.appender.stdout.layout.ConversionPattern-[$d] $p $m ($c) $n 
10g4j.appender.fileAppender-org.apache.10g4j.FileAppender 
10g4j.appender.fileAppender.File-(kafka.log.dir)/kafka-request.log 
10g4j.appender.fileAppender.layout-org.apache.10g4j.PatternLayout 
log4j.appender.fileAppender.layout.ConversionPattern- $-4r [$t] $-5p $c bx - mən 
# Turn on all our debugging info 

10g4j.logger.kafka-INFO 
10g4j.logger.org.IOItec.zkclient.ZkClient-DEBUG 


3. 启 动 Kafka 


首先 


为 Kafka 需 要 使 用 hadoop 用 户 启动 ， 按 照 下 面 所 示 代码 更 改 文件 权限 : 


mkdir -p /var/log/kafka 
chown -R hadoop: hadoop /var/log/kafka 
chown -R hadoop: hadoop /opt/modules/kafka* 


然后 ， 使 用 nohup 后 台 启 动 ， 代 码 如 下 : 


su hadoop 
nohup /opt/modules/kafka/bin/kafka-server-start.sh/opt/modules/kafka/config/ 
Server.properties > "/var/log/kafka/kafka-start.log" 2»&1 < /dev/null & 


最 后 ， 检 验 是 否 安装 成 功 。 使 用 Kafka 自 带 的 客户 端 检测 。 进 入 Kafka 安 装 主 目录 ， 先 启动 生产 者 进入 交互 客户 端 模式 ， 命 令 如 下 : 


bin/kafka-console-producer.sh --zookeeper localhost: 2181 --topic test 


然后 ， 输 入 下 面 的 信息 : 


明天 会 更 好 
hello world! 


之 后 在 另 一 个 终端 中 启动 消费 者 ， 进 入 交互 客户 端 ， 命 令 如 下 : 


bin/kafka-console-consumer.sh --zookeeper localhost: 2181 --topic test --from-beginning 


会 发 现 屏幕 上 输出 同样 的 信息 ， 证 明 Kafka 集 群 搭建 成 功 。 输 出 的 内 容 如 下 : 


明天 会 更 好 
hello world! 


844 实现 Kafka 生 产 者 


前 面 的 架构 图 8-6 中 已 经 指出 了 日 志 数 据 的 种 类 和 格式 ， 分 为 广告 展现 和 点 击 日 志 两 种 数据 ， 一 般 存 储 在 日 志 接 收服 务 器 或 者 已 经 加 载 到 Hadoop 集 群 中 ， 为 了 实时 性 考虑 ， 直 接 将 日 志 接收 服务 器 的 本 
地 数据 传输 到 Kafka 集 群 ， 这 能 够 有 效 缩短 数据 传递 的 步骤 和 时 间 。 针 对 直接 将 日 志 接收 服务 器 的 日 志 流 数据 发 送出 去 ， 有 一 种 非常 通用 的 解决 方案 一 一 Tail 文 件 ， 也 就 是 使 用 随时 Tail 文 件 结尾 的 方式 ， 实 
现 滚动 日 志文 件 的 数据 传输 。 这 种 实现 方案 的 流程 如 图 8-8 所 示 。 


1. 启 动 TPMain 主 进程 
创建 DirectoryMonitor 线 程 ， 初 始 化 程序 所 需 配 置 选项 (文件 路 径 、Kafka 信 息 等 ) ， 它 是 程序 的 入 口 类 。 


2. 启 动 目录 监控 线程 


遍历 整个 目录 (配置 文件 指定 ) ， 如 果 目 录 中 文件 没有 被 添加 到 监控 列表 中 ， 则 添加 。 如 果 已 添加 ， 则 忽略 。 然 后 创建 TailProducer， 接 收 并 封装 Kafka 相 关 信 息 ， 实 现 推送 信息 到 Kafka 的 方法 。 创 建 
LogFileTailer 线 程 ， 并 启动 。 


Tallproducer 流 程 图 


TPMain 主 进程 


图 8-8 ” ”Kafka 生产 者 流程 图 


3. 启 动 文件 监控 线程 


LogFileTailer 线 程 将 监控 文件 封装 为 RandomeAccessFile， 使 用 该 类 计算 并 记录 文件 偏 移 量 ， 并 将 偏 移 的 数据 行 推送 到 Kafka， 如 果 被 监控 文件 一 直 没有 变化 ， 则 退出 监控 ， 线 程 结束 。 


4. 循 环 监控 


目录 监控 和 文件 监控 是 一 个 循环 的 过 程 ， 如 果 没 有 适合 条 件 的 文件 会 一 直 等 待 〈 可 以 配置 ) 。 处 理 完 某 个 文件 后 ， 线 程 会 自动 消亡 ， 不 同 线程 之 间 不 存在 影响 。 


有 关 Kafka 生 产 者 的 实现 可 以 借鉴 https://github.com/mayanhuikafka-producer 工 程 的 代码 ， 该 部 分 代码 只 是 一 个 Demo， 可 能 会 存在 一 些 Bug， 需 要 读者 根据 自身 的 实际 情况 有 选择 地 使 用 。 


8.4.5 “安装 Storm 分 布 式 集群 


Storm 的 安装 、 部 署 过 程 分 为 : 安装 Storm 依 赖 库 、 安 装 Storm 集 群 、 启 动 和 查看 安装 等 几 个 部 分 。 其 中 ， 前 两 部 分 内 容 在 三 台 机 器 上 都 是 一 样 的 ， 只 要 在 启动 的 时 候 区 分 开 角 色 即 可 。 接 下 来 将 分 步骤 
详细 讲解 storm 集群 的 安装 过 程 。 


1. 安 装 Storm 依 赖 库 


Nimbus 和 Supervisor 的 节点 上 安装 Storm 时 ， 都 需要 安装 相关 的 依赖 库 ， 具 体 如 下 : 
* ZeroMQ 2.1.7 

-JZMQ 

- Java 1.6 


* Python 2.6.6 


其 中 ，ZeroMQ 推 荐 使 用 2.1.7 版 本 ， 请 勿 使 用 2.1.10 版 本 。 官 方 解 释 因为 该 版 本 的 一 些 严重 Bug 会 导致 storm 集群 运行 时 出 现 奇怪 的 问题 。 另 外 ， 以 上 依赖 库 的 版 本 是 经 过 Storm 官 方 测试 ， 但 不 能 保证 
在 其 他 版 本 的 Java 或 Python 库 下 可 运行 。 


(1) 安装 ZeroMQ 


Storm 底 层 队 列 实 现 使 用 的 是 ZeroMQ， 为 了 实现 低 耦 合 ，Storm 并 没有 将 ZeroMQ 放 置 到 


项 目 中 ， 所 以 需要 预先 安装 。 先 下 载 源码 ， 然 后 编译 安装 ZeroMQ， 命 令 如 下 : 


wget http://download.zeromq.org/zeromq-2.1.7.tar.gz 
tar -vxzf zeromq-2.1.7.tar.gz 

cd zeromq-2.1.7 

./configure 

make 

make install 


如 果 安 装 过 程 报错 uuid 找 不 到 ， 则 通过 如 下 的 命令 安装 uuid 库 : 


yum install gcc gcc-c++ 
yum install uuidd 


如 遇 到 报错 “Errorcannot link with-luuid, install uuid-dev" ， 安 装 部 分 依赖 包 : 


yum install e2fsprogs e2fsprogs-devel 


当然 ， 以 上 的 依赖 工具 安装 命令 使 用 的 是 yum， 不 同 的 Linux 分 支 使 用 不 同 的 安装 命令 ， 例 如 Ubuntu 使 用 apt-get。 用 户 根据 自己 选用 的 操作 系统 选用 不 用 的 命令 ， 可 能 有 些 依赖 工具 在 不 同 的 Linux 系 
统 上 对 应 的 名 字 不 太一 致 ， 但 是 总 能 找到 对 应 的 依赖 包 。 


(2) 安装 JZMQ 


JZMQ 是 ZeroMQ 的 Java 语 言 的 绑 定 实现 ， 因 为 安装 过 程 中 使 用 unzip 命 令 ， 首 先 要 使 用 例如 yum 等 的 安装 工具 安装 unzip 工 具 。 然 后 根据 下 面 代码 逐步 下 载 、 配 置 、 编 译 和 安装 JZMQ。 


# 安 装 依赖 工具 包 

yum install pkgconfig libtool 

# 下 载 、 配 置 、 编 译 和 安装 

wget https: //github.com/nathanmarz/jzmq/archive/master.zip -O jzmq.zip 
unzip jzmq.zip 

cd jzmg-master 

./autogen.sh 

./configure 

make 

make install 


(3) 下 载 Python 2.6.6 


Python 是 Storm 最 底层 依赖 ， 需 要 使 用 下 面 的 命令 下 载 并 安装 Python 2.6.6: 


wget http://www.python.org/ftp/python/2.6.6/Python-2.6.6.tar.bz2 
tar —jxvf Python-2.6.6.tar.bz2 

cd Python-2.6.6 

./configure 

make 

make install 


安装 完成 后 ， 需 要 使 用 命令 测试 测试 Python 2.6.6 是 否 安装 成 功 。 如 果 安 装 成 功 ， 命 令 和 结果 输出 如 下 : 


python -V 
Python 2.6.6 


2. 安 装 Storm 集 群 


下 面 介绍 Storm 0.8.2 的 详细 安装 过 程 。 


(1) 下 载 并 解压 storm 0.8.2 


Nimbus 和 Supervisor 节 点 上 安装 Storm 发 行 版 本 。Nimbus 安 装 在 test1 节 点 上 ，Supervisor 安 装 在 test2 和 test3 节 点 上 。 这 些 节点 的 配置 文件 完全 相同 。 直 接 在 http://storm- 
project.net/downloads.html 页 面 下 载 0.8.2 版 本 ， 如 图 8-9 所 示 。 


也 可 以 在 客户 端 节点 下 载 后 复制 到 集群 节点 ， 也 可 以 在 客户 端 复制 链接 地 址 后 在 集群 节点 使 用 wget 命 令 下 载 。 下 载 或 者 复制 完成 后 ， 将 压缩 包 解压 ， 命 令 如 下 : 


mv storm-0.8.2.zip /opt/modules/ 
unzip storm-0.8.2.zip 


Storm 


Distributed and fault-tolerant realtime computation about documentation blog downloads 


Downloads for Storm are below. Instructions for how to set up a Storm 
cluster can be found here. 


Current release 


e storm-0.9.0.1.zip [PGP] [SHA512] [MD5] 
e storm-0.9.0.1.tar.gz [PGP] [SHA512] [MD5] 


Older releases 


e Storm 0.9.0-rc3 [PGP] [SHA512] [MD5] 

e Storm 0.9.0-rc2 [PGP] [SHA512] [MD5] 
Storm 0.8.2 

e Storm 0.8.1 

e Storm 0.8.0 


5 

e Storm 0.7.4 
e Storm 0.7. 
* 


| 
0.7.2 


Storm 
e Storm 0.7.1 
e Storm 0.7.0 
e Storm 0.6.2 

Storm 0.6.1 
e Storm 0.6.0 
e Storm 0.5.4 
e Storm 0.5.3 
e Storm 0.5.2 
e Storm 0.5.1 
e Storm 0.5.0 


community 


图 8-9 Storm T AR i 


(2) 修改 storm.yam| 配 置 文件 


Storm 发 行 版 本 解压 目录 下 有 一 个 conf/storm.yaml 文 件 ， 用 于 配置 Storm。 默 认 配 置 在 这 里 可 以 查看 。conf/storm.yaml 中 的 配置 选项 将 覆盖 defaults.yaml 中 的 默认 配置 。 以 下 最 基本 的 配置 选项 必 


须 在 conf/storm.yaml 中 进行 配置 。 


1) storm.zookeeper.servers:Storm 集 群 使 用 的 ZooKeeper 集 群 地 址 ， 其 格式 如 下 : 


storm.zookeeper.servers: 
— "testi" 
- "test2" 
- "test3" 


如 果 ZooKeeper 集 群 使 用 的 不 是 默认 端口 ， 那 么 还 需要 storm.zookeeper.port 选 项 。 


2) storm.local.dirNimbus 和 Supervisor 进 程 用 于 存储 少量 状态 ， 如 JAR、 配 置 文件 等 的 本 地 磁盘 目录 ， 需 要 提前 创建 该 目录 并 给 以 足够 的 访问 权限 。 然 后 在 storm.yaml 中 配置 该 目录 ， 代 码 如 下 : 


storm.local.dir: "/var/storm" 


3) nimbus.host:Storm 集 群 Nimbus 机 器 地 址 ， 各 个 Supervisor 工 作 节 点 需要 知道 哪个 节点 是 Nimbus， 以 便 下 载 Topology 的 JAR、 配 置 等 文件 ， 代 码 如 下 : 


nimbus.host: "testl" 


当然 ， 这 几 项 配置 都 是 最 基本 的 配置 选项 ， 其 他 的 配置 选项 都 在 defaults.yam| 文 件 中 ， 该 文件 详细 的 内 容 如 下 所 示 ， 供 读者 参考 使 用 。 


THHHHHHHHHHE These all have default values as shown 
THHHHHHHHHHE: Additional configuration goes into storm.yaml 
java.library.path: "/usr/local/lib: /opt/local/lib: /usr/lib" 
### storm.* configs are general configurations 
* the local dir is where jars are kept 
storm.local.dir: "storm-local" 
storm.zookeeper.servers: 

- "localhost" 
storm.zookeeper.port: 2181 
storm.zookeeper.root: "/storm" 
Sstorm.zookeeper.session.timeout: 20000 
storm.zookeeper.connection.timeout: 15000 
storm.zookeeper.retry.times: 5 
storm.zookeeper.retry.interval: 1000 
storm.cluster.mode: "distributed" # can be distributed or local 
storm.local.mode.zmq: false 
### nimbus.* configs are for the master 
nimbus.host: "localhost" 
nimbus.thrift.port: 6627 
nimbus.childopts:  "-Xmx1024m" 
nimbus.task.timeout.secs: 30 


nimbus.supervisor.timeout.secs: 60 
nimbus.monitor.freq.secs: 10 
nimbus.cleanup.inbox.freq.secs: 600 
nimbus.inbox.jar.expiration.secs: 3600 
nimbus.task.launch.secs: 120 
nimbus.reassign: true 
nimbus.file.copy.expiration.secs: 600 
### ui.* configs are for the master 
ui.port: 8080 
ui.childopts:  "-Xmx768m" 
drpc.port: 3772 
drpc.invocations.port: 3773 
drpc.request.timeout.secs: 600 
transactional.zookeeper.root: "/transactional" 
transactional.zookeeper.servers: null 
transactional.zookeeper.port: null 
### supervisor.* configs are for node supervisors 
# Define the amount of workers that can be run on this machine. Each worker is 
assigned a port to use for communication 
supervisor.slots.ports: 
- 6700 
- 6701 
- 6102 
- 6103 
supervisor.childopts:  "-Xmx1024m" 
#how long supervisor will wait to ensure that a worker process is started 
supervisor.worker.start.timeout.secs: 120 
#how long between heartbeats until supervisor considers that worker dead and 
tries to restart it 
supervisor.worker.timeout.secs: 30 
#how frequently the supervisor checks on the status of the processes it's 
monitoring and restarts if necessary 
supervisor.monitor.frequency.secs: 3 
#how frequently the supervisor heartbeats to the cluster state (for nimbus) 
supervisor.heartbeat.frequency.secs: 5 
supervisor.enable: true 
### worker.* configs are for task workers 
worker.childopts:  "-Xmx768m" 
worker.heartbeat.frequency.secs: 1 
task.heartbeat.frequency.secs: 3 
task.refresh.poll.secs: 10 
zmq.threads: 1 
zmg.linger.millis: 5000 
### topology.* configs are for specific executing storms 
topology.enable.message.timeouts: true 
topology.debug: false 
topology.optimize: true 
topology.workers: 1 
topology.acker.executors: 1 
topology.acker.tasks: null 
topology.tasks: null 
# maximum amount of time a message has to complete before it's considered failed 
topology.message.timeout.secs: 30 
topology.skip.missing.kryo.registrations: false 
topology.max.task.parallelism: null 
topology.max.spout.pending: null 
topology.state.synchronization.timeout.secs: 60 
topology.stats.sample.rate: 0.05 
topology.fall.back.on.java.serialization: true 
topology.worker.childopts: null 
topology.executor.receive.buffer.size: 1024 #batched 
topology.executor.send.buffer.size: 1024 findividual messages 
topology.receiver.buffer.size: 8 f£ setting it too high causes a lot of problems 
(heartbeat thread gets starved, throughput plummets) 
topology.transfer.buffer.size: 1024 4 batched 
topology.tick.tuple.freq.secs: null 
topology.worker.shared.thread.pool.size: 4 
topology.disruptor.wait.strategy:  "com.lmax.disruptor.BlockingWaitStrategy" 
topology.spout.wait.strategy:  "backtype.storm.spout.SleepSpoutWaitStrategy" 
topology.sleep.spout.wait.strategy.time.ms: 1 
dev.zookeeper.path:  "/tmp/dev-storm-zookeeper" 


3. 启 动 Storm 集 群 


最 后 一 步 ， 启 动 Storm 的 所 有 后 台 进 程 。 和 ZooKeeper 一 样 ，Storm 也 是 快速 失败 (fail-fast) 的 系统 ， 能 在 任意 时 刻 停止 ， 


的 原因 ， 即 使 重启 Nimbus 或 Supervisor 进 程 ， 运 行 中 的 Topology 也 不 会 受到 影响 。 


首先 ， 因 为 还 需要 使 用 hadoop 用 户 启动 进程 ， 所 以 更 改 文件 权限 ， 命 令 如 下 : 


并 且 当 进程 


量 启 后 能 够 正确 地 恢复 执行 。 这 也 是 Storm 不 在 进程 内 保存 状态 


mkdir /var/storm 
chown -R hadoop: hadoop /var/storm 
chown -R hadoop: hadoop /opt/modules/*storm* 


下 面 介绍 启动 Storm 各 个 后 台 进 程 的 方式 。 


- Nimbus: 在 Storm 主 控 节 点 上 运行 ( 即 test1 节 点 ) ， 启 动 Nimbus 后 人 台 程序 ， 并 放 到 后 台 执 行 : 


su hadoop 
bin/storm nimbus </dev/null 2<&1 & 


* Supervisor: 在 Storm 各 个 工作 节点 上 运行 ( 即 test2、test3 节 点 ) ， 启 动 Supetvisor 后 台 程 序 ， 并 放 到 后 台 执 行 : 


su hadoop 
bin/storm supervisor «/dev/null 2«&1 & 


DUE: 在 Storm 主 控 节 点 上 和 运行， 启动 UI 后 台 程序 ， 并 放 到 后 台 执行 ， 启 动 后 可 以 通过 http://{nimbus host}:8080 观 察 集群 的 Worker 资 源 使 用 情况 、Topology 的 运行 状态 等 信息 ， 启 动 命令 如 下 所 示 。 启 动 


后 通过 浏览 器 ， 可 以 查看 当前 Storm 集 群 的 当前 状态 ， 成 功 启动 后 的 Storm UI 界 面 如 图 8-10 所 示 。 


su hadoop 
bin/storm ui «/dev/null 2«&1 & 


luster Summary 
Version Nimbus uptime Supervisors Used slots Free slots Total slots Executors 


0.8.2 1m 56s 3 12 12 


opology summary 


Name Id Status Uptime Num workers Num executors Num tasks 


= upervisor summary 
Id Uptime Used slots 
38037259-8ba0-4997-b6af-0(39ed46886b 3m 41s 
ad4815dc-1fdf-4ab2-8(97-6f9c62ce25c3 32m 1s 


cccd77f3-d3c6-4eb5-8443-28e7 1c3b0614 14m 6s 


8-10 ”成 功 启动 后 的 Storm UI 首页 


下 面 对 Storm UI 页 面 上 的 各 项 属性 的 含义 进行 简单 介绍 。 首 页 主要 分 为 三 块 。 
(1) Cluster Summary 集 群 统计 信息 

* Version: Storm 集 群 的 版 本 

* Nimbus uptime: Nimbus 的 启动 时 间 

* Supervisors: Storm 集 群 中 Supervisor 数 量 

“ Used slots: 使 用 了 的 slots 数 

“ Free slots: 剩余 的 slots 数 

- Total slots: 总 的 slots 数 

` Executors: 执行 者 数量 

“Tasks: 运行 的 任务 数 

(2) Topology summary 拓 扑 统计 信息 

“ Name: 拓扑 的 名 称 

Id: 由 Storm 生 成 的 拓扑 ID 

- Status: 拓扑 的 状态 ， 包 括 ACTIVE、INACTIVE、KILLED、REBALANCING 等 
. Uptime: 拓扑 运行 的 时 间 

: Num workers: 运行 的 Worker 数 

< Num executors: 运行 的 执行 者 数 

- Num tasks: 运行 的 Task 数 

(3) Supervisor summary 工 作 节 点 统计 信息 
: Host: Supervisor 主 机 名 
< Id: 由 Storm 生 成 的 工作 节点 ID 
* Uptime: Supervisot 启 动 的 时 间 
* Slots: Supervisor 的 slot 数 
* Used slots: 使 用 的 slot 数 


经 测试 ，Storm UI 必须 和 Nimbus 服 务 部 署 在 同一 个 节点 上 ， 否 则 UI 无 法 正常 工作 ， 因 为 UI 进程 会 检查 本 机 是 否 存 在 Nimbus 链 接 。 至 此 ，Storm 集 群 已 经 部 署 、 配 置 完 成 ， 已 经 可 以 向 集群 提交 拓扑 。 


4. 向 Storm 集 群 提交 任务 


向 Storm 集 群 提 交 Topology 任 务 类 似 提交 MapReduce 作 业 到 Hadoop 集 群 中 ， 只 需要 运行 JAR 包 中 的 Topology 即 可 。 而 杀 掉 任务 类 似 杀 掉 MapReduce 作 业 ， 使 用 kill 命 令 。 下 面 将 会 详细 介绍 这 两 部 
分 。 


(1) 启动 Topology 


在 Storm 的 安装 主 目录 下 ， 执 行 下 面 的 命令 提交 任务 : 


bin/storm jar allmycode.jar org.me.MyTopology argl arg2 arg3 


其 中 ，jar 命 令 是 专门 负责 提交 任务 的 ，allmycode.jar 是 包含 Topology 实 现代 码 的 JAR 包 ，org.me.MyTopology 的 main 方 法 是 Topology 的 入 口 ，arg1、arg2 和 arg3 为 org.me.MyTopology 执 行 时 需 
要 传 入 的 参数 。 


(2) 停止 Topology 


也 是 在 storm 主 目录 下 ， 执 行 kill 命 令 停止 之 前 已 经 提交 的 Topology: 


bin/storm kill (toponame] 


其 中 ，{toponame} 为 Topology 提 交 到 storm 集群 时 指定 的 Topology 任 务 名 称 ， 该 名 称 可 以 在 代码 中 指定 ， 也 可 以 作为 参数 传 入 Topology 中 。 


84.6 ”查看 集群 节点 部 署 情况 


在 安装 完 Storm 之 后 ， 在 test1 节 点 上 执行 jps 命 令 查看 所 有 的 Java 进 程 ， 获 取 如 下 的 列表 : 


jps |grep -v Jps 
24825 Kafka 

25934 nimbus 

28012 NameNode 

28687 HMaster 

18776 QuorumPeerMain 
28886 core 


由 以 上 代码 可 见 ，test1 节 点 上 启动 的 服务 进程 与 图 8-6 中 的 一 致 ， 其 中 ，QuorumpPeerMain 是 ZooKeeper 进 程 ，core 是 Storm UI 的 进程 。 


在 test2 和 test3 节 点 上 执行 jps 命 令 查看 所 有 java 进程， 获取 列表 如 下 : 


jps |grep -v Jps 
8279 DataNode 

27427 QuorumPeerMain 
8535 HRegionServer 
6912 Kafka 

7703 supervisor 


从 上 面 代码 可 以 看 到 ，test2 和 test3 节 点 的 部 署 与 架构 图 完全 一 致 。 所 以 ， 到 此 为 止 ， 所 有 的 分 布 式 集群 服务 已 经 按照 图 8-6 所 示 成 功 启动 。 接 下 来 将 讲解 如 何 实现 相应 的 业务 逻辑 部 分 。 


847 ”基于 Storm-kafka 中 间 件 实现 计算 逻辑 


由 于 所 有 广告 相关 日 志 都 进入 Kafka 消 息 队 列 中 ， 而 业务 逻辑 的 实时 计算 基于 Storm 框架 实现 ， 所 以 需要 一 个 中 间 件 从 Kafka 读 取 数 据 ， 并 将 数据 推送 到 Storm 集 群 中 ， 而 Storm-kafka 承 担 了 中 间 件 的 
角色 。 接 下 来 的 内 容 将 重点 介绍 如 何 使 用 Storm-kafka 中 间 件 。 


1. 创 建 HBase 数 据 表 


使 用 HBase Shell 客 户 端 创建 详细 设计 中 的 两 个 表 realtime_adpv_stat 和 realtime_adclick_stat， 命 令 代码 如 下 : 


create 'realtime adpv stat', { NAME => 'pv', VERSIONS=>2147483647， COMPRESSION => 
'LZO', BLOOMFILTER-»'ROWCOL' } 

create 'realtime adclick stat', { NAME => 'clk', VERSIONS-22147483647, COMPRESSION => 
'LZO', BLOOMFILTER-2'ROWCOL' } 


其 中 ， 为 了 记录 每 时 每 刻 的 访问 数据 ， 并 且 用 于 周期 性 统计 ， 将 版 本 (VERSIONS) 设置 为 Integer 类 型 最 大 值 ， 为 节省 存储 空间 设置 压缩 格式 为 LZO， 添 加 布 隆 过 滤器 以 便 后 续 查 询 使 用 。 


2. 如 何 使 用 Storm-kafka 中 间 件 


GitHub 上 已 经 为 读者 准备 好 Storm-kafka 使 用 的 示例 代码 趾 。 读 者 可 以 通过 仔细 阅读 GitHub 中 的 代码 巩固 本 节 讲解 的 内 容 。 本 小 节 重 点 介绍 核心 实现 类 ， 例 如 Main、Topology 和 Bolt 等 。 


(1) 构建 storm-kafka-consumer 工 程 


直接 从 GitHub 上 可 以 下 载 工 程 ， 通 过 Maven2 编 译 后 导入 Eclipse 中 即 可 ， 代 码 执 行 过 程 如 下 : 


wget https: //github.com/mayanhui/storm-kafka-consumer/archive/master.zip -O storm- 
kafka-consumer.zip 

unzip storm-kafka-consumer.zip 

cd storm-kafka-consumer-master 

mvn eclipse: eclipse 


编译 完成 后 ， 打 开 Eclipse， 点 击 左上 角 “File 一 Import″”， 会 弹出 “Import” 对 话 框 ， 如 图 8-11 所 示 。 然 后 根据 提示 一 步 一 步 将 编译 之 后 的 storm-kafka-consumer 工 程 导入 Eclipse 中 。 导 入 的 工程 如 
到 8-12 所 示 。 


工程 中 的 pom.xml 是 Maven2 的 配置 文件 ， 其 中 涉及 Storm-kafka 有 两 部 分 : 版 本 属性 和 依赖 配置 ， 代 码 如 下 : 


<storm. kafka.version>0.8.0-wip4</storm. kafka.version> 
<dependency> 
<groupId>storm</groupId> 
<artifactId>storm-kafka</artifactId> 
<version>${storm. kafka.version}</version> 
</dependency> 


Import 


Select N 
s " 
Create new projects from an archive file or directory. [=] 


select an im port source: 


| & General 
Ū Archive File 


= Existing Projects into Work 
L3, File System 
E, Preferences 


P d CYS 

P & Install 

* & Plug-in Development 
* E» Run/Debug 

* [5 Team 


(9) « Back EE TN | Cancel | Finish 


图 8-11 Eclipse 导入 选项 弹出 框 


Y 12 storm-kafka-consumer 
Y $8 src/main/java 
" ip net.kafka.consumer 
» [8 adclick 
» [i adpv 
+ & deprecated 
» & util 


Y & src/main/resources 
hbase.properties 
> mi Referenced Libraries 
* mà JRE System Library |jdk1.6.0 45] 
b æ Src 
* c» target 
ij pom.xml 


8-12 ”导入 Eclipse 后 的 storm-kafka-consumet 工 程 


(2) 实现 广告 展现 逻辑 


首先 ， 创 建 Topology 中 的 分 阶段 Bolt。 按 照 业 务 范围 划分 ， 广 告 展现 和 广告 点 击 是 不 同 的 业务 ， 并 且 由 于 日 志 数据 不 同 而 Kafka 队 列 中 的 Topic 也 不 同 ， 所 以 针对 广告 展现 部 分 ， 定 义 一 个 单独 的 
Topology， 名 称 是 adpv-topology。 该 逻辑 的 目的 是 将 每 行 广告 展示 记录 转化 为 HBase 表 realtime_adpv _stat 中 的 数据 。 


要 达到 该 目的 可 以 将 adpv-topology 划 分 为 两 个 Bolt: 组 合 行 键 和 统计 更 新 ， 即 AdpvCombinedRowkey 和 AdpvUpdate 类 。 


AdpvCombinedRowkey 类 用 于 将 每 行 记录 组 合 为 需要 的 行 键 ， 需 要 实现 |BasicBolt 接 口 ， 代 码 的 核心 逻辑 是 execute () 方法 ， 其 代码 如 下 : 


public void execute (Tuple tuple, BasicOutputCollector collector) { 
Strin d line = tuple.getStrii 0 i 
ra g 1 ine.split ("\t", -1); 


n (neceseceeecec [AdpvCombinedRowkey]-------------") ; 


di 
pal B rn p5 Pat Eté rn.compile a) ARMS adidNNVrts NAVI NANI) i 
tcher (jso 

ile CUNG. PUE { 

adid = mc.group () ; 
} 
if (null = adid) ( 

System.out.println ("Invalid json: " + json) ; 


$ 


p = Pattern.compile ("\\d+") ; 
mc = p.matcher (adid) ; 
while (mc.find O D) { 
adid = mc.group O ; 
) 
if (null ! = adid && adid.trim () .length () > 0 
&& ! adid.trim () .equals ("NULL") && null ! = date 
&& date.length O > 0 && ! date.trim O .equals ("NULL") ) ( 
// province 


if (null ! - province && province.trim O .length O » 0 
&& ! province.trim () .equals ("NULL") ) { 
String rowkey = adid + " " + province + " " + date: 


collector.emit (new Values (rowkey, 1L) ); 
System.out.println ("[AdpvCombinedRowkey]rk-province: " 


+ rowkey) ; 
} 
// city 
if (null ! = city && city.trim O .length O > 0 
&& ! city.trim () .equals ("NULL") ) { 
String rowkey = adid + "_" + city + " " + date; 


collector.emit (new Values (rowkey, 11); 
System.out.println ("[AdpvCombinedRowkey]rk-city: " 


+ rowkey) ; 
} 
// uid 
if (null ! = uid && uid.trim O .length O > 0 
&& ! uid.trim O .equals ("NULL") ) { 
String rowkey = adid + " "+ uid + " " + date 


collector.emit (new Values (rowkey, 1L); 
System.out.println ("[AdpvCombinedRowkey]rk-city: " 
* rowkey) ; 


如 以 上 代码 所 示 ，execute () 方法 中 首先 将 每 行 记录 按照 分 隔 符 切 分 ， 提 取 date、uid、json、province 和 city 等 字段 ， 拼 接 为 需要 的 行 键 ， 然 后 调用 collector.emit () 方法 将 结果 输出 。 


AdpvUpdate 类 


于 统计 AdpvCombinedRowkey 的 输出 结果 ， 并 且 将 其 更 新 到 HBase 对 应 表 中 。 也 需要 实现 1BasicBolt 接 口 ， 代 码 的 核心 逻辑 是 execute () 方法 ， 其 代码 如 下 : 


public void execute (Tuple tuple, BasicOutputCollector collector) { 

String rowkey = tuple.getString (0) ; 

long amount = tuple.getlong (1) ; 

String family = "pv"; 

String qualifier - "cnt"; 

try ( 
long count = table.incrementColumnValue (Bytes.toBytes (rowkey) ， 

Bytes.toBytes (family) , Bytes.toBytes (qualifier), amount) ; 

System.out.println ("[AdpvUpdate]Current count: " + count) ; 

) catch (IOException e) ( 
e.printStackTrace () ; 


) 


如 以 上 代码 所 示 ， 该 部 分 逻辑 主要 调用 了 HTable.incrementColumnValue () 方法 ,该 方法 


于 更 新 某 列 的 计数 。 


其 次 , 创建 Main 类 。 整 个 Topology 的 入 口 类 main () 方法 是 主 方法 ， 该 方法 中 包含 KafkaSpout 配 置 、Topology 创 建 、storm 配 置 和 提交 Topology 等 ， 具 体 代码 如 下 : 


public class AdpvMain ( 
public static void main (String[] args) throws Exception ( 

List«String» hosts = new ArrayList«String» O ; 

hosts.add ("data-test-208") ; 

hosts.add ("data-test-210") ; 

hosts.add ("data-test-211") ; 

SpoutConfig kafkaConf - new SpoutConfig (StaticHosts.fromHostString ( 
hosts, 10),  "adpv-test-1", "/kafkastorm", "adpv") ; 

kafkaConf.scheme = new StringScheme () ; 

kafkaConf.zkPort = 2181; 

kafkaConf.forceStartOffsetTime (-2) ; // To start from beginning of topic 

KafkaSpout kafkaSpout = new KafkaSpout (kafkaConf) ; 

TopologyBuilder builder = new TopologyBuilder () ; 

builder.setSpout ("spout", kafkaSpout, 4); 

builder.setBolt ("combined-rk", new AdpvCombinedRowkey () ) 
.shuffleGrouping ("spout") ; 

builder.setBolt ("cnt", new AdpvUpdate () ) .shuffleGrouping ("combined-rk") ; 

Config config - new Config O ; 

// config.setDebug (true) ; 

config.setNumWorkers (4) ; 

config.setMaxSpoutPending (1000) ; 

StormSubmitter.submitTopology ("adpv-topology", config, 
builder.createTopology O ) ; 


其 中 ， 在 SpoutConfig 创 建 时 需要 四 个 参数 ， 各 个 参数 的 含义 如 下 : 


* StaticHosts.fromHostString (hosts, 10) : hosts 表 示 Kafka 集 群 的 Broker 的 主机 名 ; 10 表 示 每 台 Broker 的 分 片 的 数量 ， 即 num.pattitions 属 性 的 值 。 
- adpv-test-1: 从 Ka 人 ka 集群 中 读 取 的 Topic 的 名 称 。 
* /kafkastorm: 表示 KafkaSpout 在 ZooKeeper 中 存储 消费 偏 移 信 息 的 根 路 径 。 


- adpv: ZooKeepet 中 存储 消费 偏 移 信息 的 ID。 


Kafka 配 置信 息 kafkaConf.forceStartOffsetTime (-2) 表示 从 Kafka 的 Topic 的 开始 位 置 开始 消费 。 


在 创建 Topology 的 过 程 中 ， 首 先 设置 Spout， 然 后 顺序 设置 不 同 的 Bolt。 组 合 行 键 Bolt 设 置 名 称 是 combined-rk， 使 用 将 Spout 输 入 数据 Shuffle 分 组 的 方式 处 理 数据 。 统 计 更 新 Bolt 设 置 名 称 是 adpv- 
cnt， 将 组 合 行 键 Bolt 的 输出 作为 输入 ， 同 样 采用 Shuffle 分 组 方式 。 


在 配置 Storm 的 过 程 中 ， 设 置 了 两 个 参数 : Worker 的 数量 是 4、 单 个 Task 中 Spout 最 大 的 吞吐 量 是 2000。 而 提交 Topology 的 操作 非常 简单 ， 参 数 清晰 易 懂 。 


然后 ， 配 置 HBase 属 性 。 这 部 分 配置 与 直接 使 用 HBase 的 应 用 的 属性 配置 相同 ， 需 要 配置 hbase.master、hbase.zookeeper.quorum 和 hbase.zookeeper.property.clientPort 三 个 参数 ， 详 细 的 配置 明 
细 如 下 (参见 配置 文件 src/main/resources/hbase.properties) 


hbase.master=test1: 60000 
hbase.zookeeper.quorum-testl, test2, data3 
hbase.zookeeper.property.clientPort-2181 


(3) 实现 广告 点 击 逻辑 


首先 ， 创 建 分 阶段 Bolt。 同 广告 展现 部 分 ， 广 告 点 击 部 分 同样 需要 定义 一 个 单独 的 Topology， 名 称 是 adclick-topology。 该 逻辑 的 目的 是 将 每 行 广告 点 击 记录 转化 为 HBase 表 realtime_adclick_stat 中 


的 数据 。 


要 达到 该 目的 可 以 将 adclick-topology 划 分 为 两 个 Bolt: 组 合 行 键 和 统计 更 新 ， 即 AdclickCombinedRowkey 和 AdclickUpdate 类 ， 这 两 个 类 与 adpv-topology 中 的 两 个 类 非常 类 似 ， 只 是 execute () 
方法 中 的 业务 逻辑 不 同 。 


AdclickCombinedRowkey 类 用 于 将 每 行 记录 组 合 为 需要 的 行 键 ， 需 要 实现 |BasicBolt 接 口 ， 代 码 的 核心 逻辑 是 execute () 方法 ， 其 代码 如 下 : 


public void execute (Tuple tuple, BasicOutputCollector collector) { 
String line - tuple.getString (0) ; 
String[] arr = line.split ("\t", -1) ; 
if (arr.length > 10) ( 
System.out 
.println ("--------------- [AdClickCombinedRowkey]---------- "tj os 
String date = arr[0].trim O ; 
String json = arr[8].trim O ; 
if (null ! = json && json.trim © .length () > 0) ( 
String adid = null; 
Pattern p = Pattern.compile ("NNN"adidNNNm; NNNILENNNS) ; 
Matcher mc = p.matcher (json) ; 
while (mc.find OD { 
adid = mc.group O ; 


} 

if (null == adid) { 
System.out.println ("Invalid json: " + json); 
return; 

} 

p = Pattern.compile ("\\d+") ; 

mc = p.matcher (adid) ; 

while (mc.find O ) { 
adid = mc.group O ; 

$ 


if (null ! = adid && adid.trim () .length O > 0 
&& ! adid.trim () .equals ("NULL") && null ! = date 
&& date.length O > 0 && ! date.trim O .equals ("NULL") ) { 
String rowkey = adid + " " + date; 


collector.emit (new Values (rowkey 11) ) ; 
System.out.println ("[AdClickCombinedRowkey]rk-province: " 
+ rowkey) ; 


如 以 上 代码 所 示 ，execute () 方法 中 首先 将 每 行 记录 按照 分 隔 符 切 分 ， 只 提取 date 和 json 两 个 字段 ， 拼 接 为 需要 的 行 键 ， 然 后 调用 collector.emit () 方法 将 结果 输出 。 


AdclickUpdate 类 用 于 统计 AdclickCombinedRowkey 的 输出 结果 ， 并 且 将 其 更 新 到 HBase 对 应 表 中 。 也 需要 实现 IBasicBolt 接 口 ， 其 代码 如 下 : 


public void prepare (Map conf, TopologyContext context) { 
config = HBaseConfiguration.create () ; 
config.set ("hbase.master", 
cp.getProperty (ConfigProperties.CONFIG NAME HBASE MASTER) ) ; 
config.set ("hbase.zookeeper.property.clientPort", "2181") ; 
config.set ( 
"hbase.zookeeper.quorum", 
cp.getProperty (ConfigProperties.CONFIG NAME HBASE ZOOKEEPER QUORUM) ) ; 
try ( 
7 table = new HTable (config, Bytes.toBytes ("realtime adclick stat") ) ; 
) catch (IOException e) ( 
e.printStackTrace () ; 
} 
$ 
public void execute (Tuple tuple, BasicOutputCollector collector) { 
String rowkey = tuple.getString (0) ; 
long amount = tuple.getLong (1) ; 
String family = "clk"; 
String qualifier = "cnt"; 
try { 
long count = table.incrementColumnValue (Bytes.toBytes (rowkey) , 
Bytes.toBytes (family) , Bytes.toBytes (qualifier), amount) ; 
System.out.println ("[AdclickUpdate]Current count: "+ count) ; 
) catch (IOException e) ( 
e.printStackTrace () ; 
l 


从 上 面 代码 中 可 以 看 出 ， 其 实现 与 AdpvUpdate 类 非常 相似 ， 只 是 表 名 和 列 族 名 称 不 同 。 核 心 逻辑 也 是 execute () 方法 ， 同 样 调用 HTable.incrementColumnValue () 方法 。 


可 


其 次 ， 创 建 Main 类 和 配置 HBase 属 性 。 这 两 部 分 中 ，Main 类 与 广告 展现 逻辑 基本 相同 ，HBase 属 性 文件 是 整个 工程 共用 的 ， 所 以 这 两 部 分 不 再 展开 讲解 。 更 详细 的 内 容 请 参见 GitHub 或 者 下 载 后 的 代 


可 


3. 运 行 Topology 


前 面 的 讲解 中 已 经 实现 两 个 Topology 需 求 ， 接 下 来 使 用 命令 提交 Topology， 提 交 命 令 如 下 : 


# 运 行 广告 展现 Topology 

/opt/modules/storm/bin/storm jar storm-kafka-consumer-0.1.jar net.kafka.consumer. 
adpv.AdpvMain 

# 运 行 广告 点 击 Topology 

/opt/modules/storm/bin/storm jar storm-kafka-consumer-0.1.jar net.kafka.consumer. 
adclick.AdclickMain 


提交 上 面 的 单个 命令 后 ， 会 看 到 终端 的 输出 信息 ， 然 后 任务 提交 成 功 后 在 后 台 运行 。 如 果 JAR 包 不 存在 或 者 找 不 到 相应 的 类 ， 终 端 会 她 出 执行 异常 ， 如 果 成 功 提交 会 看 到 如 下 输出 信息 : 


0 [main] INFO backtype.storm.StormSubmitter - Jar not uploaded to master 
yet. Submitting jarhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
6 [main] INFO backtype.storm.StormSubmitter  - Uploading topology jar storm- 


kafka-consumer-0.1.jar to assigned location: storm-local/nimbus/inbox/stormjar- 
c16e4a86-£351-4204-8458-8909170389df.jar 

415 [main] INFO backtype.storm.StormSubmitter - Successfully uploaded topology 
jar to assigned location: storm-local/nimbus/inbox/stormjar-c16e4a286-f351- 
4204-8458-d90917b389df.jar 

415 [main] INFO backtype.storm.StormSubmitter - Submitting topology adpv-topology 
in distributed mode with conf ("topology.workers": 20, "topology.max.spout. 
pending": 5000) 

532 [main] INFO backtype.storm.StormSubmitter - Finished submitting topology: 
adpv-topology 


当 广 告 展示 Topology 通 过 命令 行 提交 之 后 ， 可 以 从 Worker 的 打印 日 志 中 看 到 类 似 下 面 代码 的 信息 。 当 然 ， 如 果 提 交 JAR 包 存在 运行 时 异常 Bug， 则 会 在 Worker 的 日 志 中 看 到 异常 信息 ， 可 以 帮助 读者 
定位 问题 所 在 。 


2014-01-22 10: 31: 09 STDIO [INFO] -------------------- [AdpvCombinedRowkey]-------- 
2014-01-22 10: 31: 09 STDIO [INFO] Invalid json: ("swfpt": "515", "dsp": "3", "xml 
2014-01-22 10: 31: 09 STDIO [INFO] -------------------- [AdpvCombinedRowkey] 


MELLE 


2014-01-22 10: 31: 09 STDIO [INFO] Invalid json: ("swfpt": "423", "dsp": : "ri' ngn} 

2014-01-22 10: 31: 09 STDIO [INFO] --—------------------ [AdpvComibinedRowkey] ----------------- 

2014-01-22 10: 31: 09 STDIO [INFO] [AdpvCombinedRowkey]rk-province: 32391 山东 省 20140117 

2014-01-22 10: 31: 09 STDIO [INFO] [AdpvCombinedRowkey]rk-city: 32391 济南 市 20140117 

2014-01-22 10: 31: 09 STDIO [INFO] [AdpvCombinedRowkey]rk-city: 32391 (B24B4153-35C9-5F3A- 
8295-3C518DD8FA45) 20140117 


直接 查看 日 志 不 是 最 方便 的 方法 ， 异 常 信息 还 可 以 在 Storm UI 页 面 中 直接 查看 ， 如 图 8-13 所 示 的 红色 字体 显示 ， 可 以 非常 直观 地 看 到 异常 信息 。 当 然 ， 在 该 Topology 的 详情 页 面 ， 还 可 以 看 到 
Topology 的 统计 信息 、 状 态 信息 、Spout 信 息 和 Bolt 信 息 等 。 


opology summary 


Name ki Status. Uptime Num workers Num executors Num tasks 


ACTIVE 40s 4 G 6 


opology stats 

Window Emined Transterred Complete latency fms) 2 Failed 
10m 0s 302 020 

3n 0m De 3022 30X 

1d 0h 0m 0s 32 X 


All time 302 20 


Spouts (All time) 


i a Executors tmmed Iransferred Complete latency (ms) failed Last error 


spout 1 4 3020 3020 0 000 0 


Bolts (All time) 


Executors Tasks — Lmitted Iransserred Process latency Acked Failed 


ims} Last error 


jeva lang NoClassDefFoundEmor: org/apsche/commons/callections/map/ListOrderedMap at net sf json.JSONObject (JSONObyect java: 1450) at 
net sf json uti CycleDetecticnStategy [CycleDete 


8-13 Storm UI 运行 时 异常 提示 


因为 对 于 adpv-topology 和 adclick-topology 来 讲 ， 在 storm UI 和 HBase 相 关 的 页 面 中 的 展现 形式 相同 ， 所 以 接 下 来 的 讲解 都 是 基于 adpv-topology 拓 扑 的 。adpv-topology 正 常 运行 时 ， 在 Storm UI 
的 Topology 详 情 页 中 可 以 看 到 详细 的 统计 信息 ， 包 括 提交 量 、 传 输 量 、 平 均 耗 时 等 细节 信息 ， 如 图 8-14 所 示 。 


opology summary 


ld Uptime Num workers Num executors Num tasks 


adpetopology-17-1390359559 ACTIV m 30s 1 


opology stats 

Window a Emited Transferred Complete latency (ms) Acked Failed 
10m 0s 

3h Om De 

1d (ih Om 0s 


All time 


Spouts (All time) 


wW a Executors Emitted Transfarred Complete latency (ms) Acked Failed Last orror 


spout 4 4 52680 52500 5221.670 1772 4520 


Bolts (All time) 


d a Executors Lmitted Trensfecred Process latency (ms) Last error 
— acker 1 1 17900 17580 0.029 
mipecnt 1 1 2620 62620 196 


combinod tk 10048 0 755 


Hide System Stats. 


图 8-14 adpv-topology 监 控 详 情 页 


可 以 点 击 adpv-topology 上 Bolts (All time) 中 的 combined-rk 进 入 Bolt 详 情 页 面 ， 如 图 8-15 所 示 。 从 Bolt 详 情 页 中 可 以 查看 Bolt 的 输入 、 输 出 的 详细 统计 信息 ， 包 括 平均 延 时 、 数 据 量 等 。 


Transfered Process latency (ms) Acked 


133760 0846 139560 
139760 DBM6 139560 
139760 0.846 139560 


139760 0.846 139560 


nput stats (All time) 
Component Process latency (ms) 


0 $46 


Output stats (All time) 


Tramtsterred 


_ack_ack 3975 139760 


Gelauit 0 


Emitted Transfened Process latency (ms) 


图 8-15 Storm Bolt 详 情 页 


adpv-topology 的 最 后 一 个 Bolt 一 一 adpv-cnt 执 行 过 程 中 ， 可 以 查看 HBase Ul 界面， 会 发 现 其 中 表 realtime_adpv_stat 每 秒 写 入 268 条 记录 ， 如 图 8-16 所 示 。 看 到 该 页 面 也 证 明 该 Bolt 中 实现 的 业务 逻 
辑 是 基本 正常 的 。 


Tables 
Catalog Table Description — | 


-ROOT- he -ROOT- table holds references to all . META. regions. 
|, NETA. he .META. table holds references to all User Table regions 


1 table(s) in set. [Details] 
user Table Description 


(NAME => 'realtime adpv stat', FAMILIES => [(NAME => "pw 111 


Region Servers 


Mon Jan 20 17:32:04 CST 2014| 20 dT: 32:04 CST 2014 UIT 268, —— mE useddeapMB-42, maxHeaplb-995 


[data-test-211, 60020, 1390210364616|Mon Tan 20 17:32:44 CST 2014|reauestsPerSecond-0, numberOfünlineRegions-0, usedHeapMD-32, maxHeaplMD-997 
Total: [servers HE | |requestsPerSecond=268, nunberOfOnlineRegions-3 


Load is requests per second and count of regions loaded 


图 8-16 HBase Webs J£ 31 i 


然后 ， 通 过 HBase Shell 客 户 端 扫描 全 表 数 据 ， 可 以 看 到 如 图 8-17 所 示 的 实际 数据 存储 的 格式 ， 同 样 可 以 验证 业务 逻辑 是 否 准 确 。 至 此 ， 使 用 storm-kafka 中 间 件 实现 计算 逻辑 的 实现 部 分 全 部 介绍 完 


毕 


p 


WGN Q RJ) Là. IN) OQ I9 IN) S IO NND) N N 


(LED 29E1DS 20140117 column-pv: time3tarp-l Yalue=\X00\X00\ 
_{FDDECBS: -274D-( D45 5 20140117 1 rimestamp-1390 
timestamp-1 
timestamp-1l 
timestamp-139 0 Y 
))F1EG1CO colr 7 timestamp=-139 )7010, 1c x 00S x00* x00^x0 
09AESEA472) 20140117 coli y timestamp=13903 - 1 x0ON x00^ 0^ 00Xx00X xO 
wXXBBAXC2AXBAXXCSAXAGNXC2MAXBIAXC2MxXBEMxX column-pv rtimestamp-139 value-Xx00Xx00x00^ O0Xx00XxO 
Xx82 20140117 
Xx8CXxC2N QXA4NXC2NXXBAXAXC2AXACAX columnep timestampel ) E valuesXx00N x00 x00 x00Xx003 
x82 20140117 
\x9 C2\x95\xC3\xAG\xC2\xA2\xC2\x81\x column-pv timestamp=1:; t 8, value-Ax00Xx00^ \ 0\x00\x00J 


ye P EE HEEL 


" €Q () 6 Q QD € Q Qo 


[a 
x 
n 


& 3E 


timestamp-1390360030830 1 JVx00NMXOONXOOVx00Y 


Xx82 20140117 

(XA4XxC2XxA9VxC3ixA6 \xB4\xC2\xA5\ 1 timestamp-1390360043356, 1 xOOX x00 \x00\x0 

Xx82 20140117 

XXA4MxC2NxAAXxC3 S\ xí \VX9FY coli timestamp-1390360041058, value=\x00\x00\x00\x00" .x 00 x 

Xx82 20140117 

C2XxB1XxC2VxB1VxC3V xA£xC2X xASVxC2N x BF i timestamp=139036004976 value=\x0O0\xO0\xO00\xO0\xO00\x00\x 

Xx81 20140117 

xBCXAxC2XxA0XxC3A XAEXxC2XXxB6AX CO S timestamp-1 ) lue=\x0ð\ x00) \ x00*^ 

XXA3XXC3AXASVXC2V 2Xx82 20140117 

\xBF\xC2\xBB\xC3\ \xC2 xC2Nx9E x timestampzs139 9047 value=\x00\ x00) \XDONx00VX00ONWXx00TI 
2NXBBNVXCZNX62 20140117 


Xx99X4xC2Xx8BAxC3V x A4 xC2N xC2NxADAx timestamp-1330560045209, 1 OO0N x00 xOOs x00 x001 


Oc oc 
3E 1 


5 


M Q M GQ MN 0 MN 
"oc 


3 
3 
3 
3 
3 
3 
3 
3 


timestampe1330360049762, val O\xO0\x00\x00\x00, 


IN CQ I 


n 


timestamp-1390360045513, : AxOONxOON x00 x00 x00 x00V x ODVx1F 
Xx82 20140117 
\xB2\xC2\xB3\xC3\ C2 \ \ mestamp=1390360049202, val \xO0\xO0\xO00\xO00\xO00\x00\x00\x14 
\x81 20140117 
\xXBF\xXC2\X90\xC3\XAS\ XC2\x9F\xC2\x8E\x t V timestamp-139036 ? value=\x00\ x00 V O0Xx00Xx00NxAS 
C3XxASXxC2 A Xx82 20140117 
2671 XxC3^ \x9S5\xC2\xBE\xC3\xA6\xC2\xB2\xC2\xBB\x column-pv 04892 value=\x00\x00\ 
C3XxASXxC2 C2Xx82 20140117 
32671 \xC3\xA9\xC2\x98\xC2\xB3\xC3\ AA6\xC2\nB3\xC2\x89\x columnezpv: )3 2, valuesXxOOXxOOVx0O X xO0X x00 x00 
C3XxASXxC2XxB8N Xx82 20140117 
39949 row(s) in 31.9510 se ds 


图 8-17 HBase 表 realtime_adpv_stat 的 数据 格式 


当 实 现 的 Topology 出 现 异常 或 者 需要 更 新 Topology 时 ， 需 要 先 杀 掉 原 有 Topology， 然 后 重新 启动 。 杀 掉 Topology 命 令 在 开发 测试 过 程 中 使 用 特别 频繁 ,执行 命令 如 下 : 


/opt/modules/storm/bin/storm kill adpv-topology 


在 执行 上 面 的 命令 后 ， 终 端 会 出 现 如 下 的 输出 信息 ， 表 示 成 功 停止 Topology: 


0 [main] INFO backtype.storm.thrift - Connecting to Nimbus at localhost: 6627 
29 [main] INFO backtype.storm.command.kill-topology - Killed topology: adpv-topology 


如 果 杀 掉 一 个 不 存在 或 者 已 经 停止 的 Topology， 会 出 现 类 似 下 面 的 输出 信息 : 


0 [main] INFO backtype.storm.thrift - Connecting to Nimbus at localhost: 6627 
Exception in thread "main" NotAliveException (msg: adpv-topology is not alive) 
at backtype.storm.generated.Nimbus$killTopologyWithOpts result.read (Nimbus.java: 3586) 
at org.apache.thrift7.TServiceClient.receiveBase (TServiceClient.java: 78) 
at backtype.storm.generated.Nimbus$Client.recv killTopologyWithOpts (Nimbus.java: 187) 
at backtype.storm.generated.Nimbus$Client.killTopologyWithOpts (Nimbus.java: 173) 
at sun.reflect.NativeMethodAccessorImpl.invokeO0 (Native Method) 
at sun.reflect.NativeMethodAccessorImpl.invoke (NativeMethodAccessorlImpl.java: 39) 
at sun.reflect.DelegatingMethodAccessorImpl.invoke (DelegatingMethodAccessorlImpl.java: 25) 
at java.lang.reflect.Method.invoke (Method.java: 597) 
at clojure.lang.Reflector.invokeMatchingMethod (Reflector.java: 93) 
at clojure.lang.Reflector.invokeInstanceMethod (Reflector.java: 28) 
at backtype.storm.command.kill topology$ main.doInvoke (kill topology.clj: 12) 
at clojure.lang.RestFn.applyTo (RestFn.java: 137) T 
at backtype.storm.command.kill_topology.main (Unknown Source) 


由 于 HBase 访 问 性 能 严重 受 表 结构 的 制约 ， 根 据 上 面 的 表 结构 设计 的 描述 和 实现 ， 该 结构 支持 下 面 的 多 种 实时 查询 的 需 : 


四 
四 


“ 某 个 广告 在 某 个 省 的 当前 投放 量 。 


“ 某 个 广告 在 某 个 市 的 当前 投放 量 。 


“ 某 个 广告 在 某 个 用 户 客户 端 上 的 当前 投放 量 。 


“ 某 个 广告 的 当前 点 击 量 。 


“ 某 个 广告 在 累计 一 段 时 间 内 〈 例 如 一 个 月 ) 的 菜 个 省 的 历史 投放 趋势 。 


“ 某 个 广告 在 累计 一 段 时 间 内 〈 例 如 一 个 月 ) 的 某 个 市 的 历史 投放 趋势 。 


“ 某 个 广告 在 累计 一 段 时 间 内 〈 例 如 一 个 月 ) 的 某 个 用 户 客户 端 上 的 历史 投放 趋势 。 


“ 某 个 广告 在 累计 一 段 时 间 内 〈 例 如 一 个 月 ) 的 点 击 量 趋势 。 


上 面 提 到 的 这 些 需 求 ， 


通过 封装 HBase 客 户 端 可 以 非常 方便 地 实现 ， 并 


[由 参见 https://github.com/mayanhui/storm-kafka-consumer/ o 
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本 章 主要 讲解 了 如 何 实现 广告 行业 实时 计算 的 实践 项 目 案例 ， 从 背景 知识 、 项 目 概要 设计 、 详 细 设 计 和 核心 模块 实现 等 方 
Kafka、storm 和 HBase 这 样 的 技术 组 合 。 在 实现 部 署 的 讲解 中 ， 重 点 介绍 了 这 几 种 框架 的 安装 过 程 、 生 产 者 和 业务 逻辑 层 等 核心 模块 的 实现 步 又， 并 


和 图 解 。 


并 不 是 说 本 章 中 介绍 的 Kafka、Storm 和 HBase 三 种 


服 ”的 现象 ， 所 以 需要 读者 “ 


地 制 宜 ， 因 时 制 宜 ”。 


警 系统 。 


RIE ”核心 概念 


: 第 10 章 “HBase 高 级 特性 


“ 第 12 章 ”性 能 调 优 


第 9 章 “核心 概念 


三 部 分 


能 够 满足 实时 性 的 需求 。 前 端 数 据 可 视 化 可 以 借助 商 


的 报表 或 者 开源 的 JavaScript 的 框架 ， 例 如 D3.js 等 。 


高 级 篇 


面 阐述 了 如 何 构建 广告 业务 的 实时 计算 系统 。 在 技术 选 型 上 ， 说 明了 为 何 选 择 
为 了 方便 读者 理解 ， 讲 解 过 程 中 穿插 了 不 少 代码 示例 


技术 组 合 的 实时 计算 系统 能 够 满足 所 有 场景 和 需求 ， 本 章 中 的 实践 案例 只 是 针对 互联 网 广告 行业 设计 的 ， 如 果 照 搬 到 其 他 行业 中 ， 可 能 出 现 “ 水 土 不 
其 实 ， 这 三 种 技术 组 合 的 实时 计算 系统 有 一 个 明显 的 问题 一 一 系统 维护 的 成 本 ， 需 要 维护 三 个 分 布 式 系统 ， 所 以 生产 环境 一 定 要 配置 相应 的 监控 和 报 


本 章 将 介绍 HBase 相 关 的 一 些 比较 核心 的 理论 概念 并 剖析 其 实现 逻辑 ， 深 入 浅 出 地 介绍 HBase 实 现 中 所 涉及 的 理论 基础 。 当 然 ，HBase 的 实现 涉及 很 多 方面 的 知识 ， 本 章 分 别 从 存储 结构 、 持 久 化 实 
现 、 预 写 日 志 、 写 入 和 查询 流程 、 数 据 备份 及 压缩 等 多 方 


面 阐述。 在 阐述 过 程 中 ， 为 了 形象 地 说 明 


HBase 作 为 一 个 分 布 式 、 面 
如 何 保证 容错 ? 如 何 灾 备 ? 如 何 


91 核心 结构 


对 于 数据 库 产品 ， 底 层 存储 架构 直接 决定 了 数据 库 的 特性 和 使 
已 经 有 几 十 年 的 历史 。 相 对 而 言 ，RDBMS 的 替代 品 ，NoSQL 之 一 


向 列 的 高 性 能 数据 库 ， 无 论 批 量 写 入 和 读 取 的 性 能 都 很 高 ， 而 能 够 
存储 实际 数据 和 日 志 ? 等 等 问题 都 会 浮现 在 读者 的 脑海 中 。 本 章 将 会 对 这 些 问 题 做 全 面 、 


当然 ，RDBMS 并 不 是 只 能 采 
决 当前 问题 的 最 佳 策略 。 下 面 将 会 


931 B+ 树 


B+ 树 是 一 种 树 状 数据 结构 ， 


相反 。 


B+ 树 在 节点 访问 时 间 远 远 超过 节点 内 部 访问 时 
少 树 的 高 度 ， 不 经 常 发 生平 衡 操 作 ， 而 且 


问题 ,会 枚 举 不 少 示例 和 代码 讲解 ， 希 望 能 够 加 深 读者 的 认识 。 


B+ 树 类 型 的 结构 ， 而 


通常 


的 HBase 的 底 


也 不 是 所 有 的 NoSQL 解 决 方案 都 使 
解释 LSM 树 与 B+ 树 的 不 同 ， 以 及 为 何 选用 LSM 作 为 HBase 的 底 


场景 。 众 所 周知 ， 传 统 RDBMS (关系 型 数据 库 ) 使 
层 存储 结构 与 其 有 着 根本 上 的 不 同 。HBase 使 用 LSM 树 (Log-Structured Merge Tree, 


了 一 些 特殊 、 高 效 的 算法 和 机 制 。 如 何 保证 海量 数据 下 的 读 写 性 能 ? 


备 这 些 特性 ， 其 内 部 实现 必定 使 


于 数据 库 和 操作 系统 的 文件 系统 中 。B+ 树 的 特点 是 能 够 保持 数 


增加 了 效率 。 这 种 价值 得 以 确立 通常 需 


B+ 树 背后 的 想法 是 内 部 节点 可 以 有 在 预定 范 


上 内 的 可 变数 


因此 ，B+ 树 不 需要 像 其 


他 自 平衡 二 叉 查找 树 那样 经 常 重新 平衡 。 对 于 特定 的 实现 在 子 节点 数目 上 的 低 和 高 边界 是 


注意 链接 列表 (白色 块 ) 允许 快速 按 上 顺序 遍历 。 


如 果 节 点 有 无 效 数目 


的 子 节 点 则 被 当做 处 于 违规 状态 。B+ 树 的 结构 如 图 


深入 解释 ， 希 望 读者 在 阅读 完 本 章 


了 与 之 不 同 的 结构 。 通 常 我 们 都 能 看 到 各 式 各 样 的 混搭 型 的 技术 方案 ， 它 们 都 
层 存储 架构 。 


居 稳 定 有 序 ， 其 插入 与 修改 拥有 较 稳定 的 对 数 时 间 复 杂 度 。B+ 树 元 素 


每 个 节点 在 次 级 存储 中 占据 完整 的 磁盘 块 或 近似 的 大 小 。 


B 树 及 B+ 树 作为 数据 存储 结构 ，B 树 及 B+ 树 作为 成 熟 的 存储 结构 应 
志 结构 合并 树 ) 作为 底 


后 ， 都 能 找到 上 述 问题 的 答案 。 


在 数据 库 领域 
层 存储 的 


9-1 所 示 ， 其 中 连接 1~ 7 到 数据 值 d1~d7 的 


有 一 个 相同 的 目标 : 


使 用 解 


自 底 向 上 插入 ， 这 与 二 叉 树 恰好 


| 间 的 时 候 ， 比 可 作为 替代 的 实现 有 着 实在 的 优势 。 这 通常 在 多 数 节 点 在 次 级 存储 比如 硬盘 中 的 时 候 出现 。 通 过 最 大 化 每 个 内 部 节点 中 的 子 节点 的 数 


来 减 


固定 的 。 
简单 例子 ， 


例 


d, d, d, d, d. d. d. 


9-1. B+ 树 示例 


在 B+ 树 中 的 节点 通常 表示 为 一 组 有 序 的 元 素 和 子 指针 。 如 果 此 B+ 树 的 序数 (Order) 是 m， 则 除了 根 之 外 的 每 个 节点 都 包含 最 少 | /2 .个 元 素 ， 最 多 m-1 个 元 素 ， 对 于 任意 的 节点 有 最 多 m 个 子 指针 。 
对 于 所 有 内 部 节点 ， 子 指针 的 数目 总 是 比 元 素 的 数目 多 一 个 。 因 为 所 有 叶子 都 在 相同 的 高 度 上 ， 节 点 通常 不 包含 确定 它们 是 叶子 还 是 内 部 节点 的 方式 。 每 个 内 部 节点 的 元 素 充当 分 开 它 的 子 树 的 分 离 值 。 例 
如 ， 如 果 内 部 节点 有 3 个 子 节点 (或 子 树 ) 则 它 必须 有 两 个 分 离 值 或 元 素 3 和 5。 在 最 左 子 树 中 所 有 的 值 都 小 于 3， 在 中 间 子 树 中 所 有 的 值 都 在 3 和 5 之 间 ， 而 在 最 右 子 树 中 所 有 的 值 都 大 于 5。 


9.1.2 LSM 树 


随 着 NoSQL 系 统 尤其 是 类 BigTable 系 统 流行 ，LSM 树 ( 即 LSM-Tree) 这 个 名 词 也 开始 变 得 不 再 陌生 。 相 信 大 多 数 了 解 NoSQL 系 统 的 人 ， 基 本 上 都 听 说 过 LSM -Tree 这 个 名 词 ，LSM -Tree 之 于 BigTable 
的 重要 性 就 像 一 致 性 hash 之 于 Dynamo。 


LSM-Tree 由 Patrick O”Neil 和 Edward Cheng 等 于 1996 年 提出 ， 用 于 为 那些 长 期 具有 很 高 记录 更 新 (插入 或 删除 ) 频率 的 文件 提供 低 成 本 的 索引 机 制 。LSM -Tree 通过 使 用 某 种 算法 对 索引 变更 进行 延 
迟 及 批量 处 理 ， 并 通过 一 种 类 似 于 归并 排序 的 方式 联合 使 用 一 个 基于 内 存 的 组 件 和 一 个 或 多 个 磁盘 组 件 。 在 处 理 过 程 中 ， 所 有 的 索引 值 对 于 所 有 的 查询 来 说 都 可 以 通过 内 存 组 件 或 者 某 个 磁盘 组 件 进行 访问 
(除了 很 短暂 的 加 锁 期 外 ) 。 


与 传统 访问 方式 (比如 B+ 树 ) 相 比 ， 该 算法 大 大 减少 了 磁盘 磁 臂 的 移动 次 数 ， 同 时 还 会 提高 那些 使 用 传统 访问 方式 进行 插入 时 ， 磁 盘 磁 臂 开 销 ( 寻 道 + 转动 ) 远大 于 存储 空间 花费 的 情况 的 性 价 比 。 
LSM-Tree 方 式 也 可 以 支持 除 插入 和 删除 外 的 其 他 操作 。 但 是 ， 对 于 那些 需要 立即 响应 的 查找 操作 来 阅 ， 某 些 情况 下 ， 它 也 会 损失 一 些 IO 效 率 ， 因 此 LSM -Tree 最 适用 于 那些 索引 插入 比 查 询 操作 更 常见 的 情 
况 。 比 如 ， 对 于 历史 记录 表 和 日 志文 件 来 说 ， 就 属于 这 种 情况 。 


LSM-Tree 的 主体 思想 是 划分 不 同等 级 的 树 。 以 两 级 树 为 例 ， 可 以 想象 一 份 索引 数据 由 两 棵 树 组 成 ， 一 棵 树 存在 于 内 存 ， 一 棵 树 存在 于 磁盘 。 内 存 中 的 树 不 一 定 是 B 树 ， 可 以 是 其 他 的 树 ， 例 如 AVL 树 。 
因为 数据 大 小 是 不 同 的 ， 所 以 没 必要 牺牲 CPU 来 达到 最 小 的 树 高 度 。 而 存在 于 磁盘 的 树 是 一 棵 B 树 ， 如 图 9-2 所 示 。 


Co tree 


PASEN A 


Disk = C a Re AT 


9-2 LSM Tree 组 件 概要 图 


数据 首先 会 插入 内 存 中 的 树 。 当 内 存 中 的 树 的 数据 超过 一 定 阔 值 时 ， 会 进行 合并 操作 。 合 并 操作 会 从 左 至 右 遍 历 内 存 中 树 的 叶子 节点 与 磁盘 中 树 的 叶子 节点 进行 合并 ， 当 被 合并 的 数据 量 达到 磁盘 的 存 
储 页 的 大 小 时 ， 会 将 合并 后 的 数据 持久 化 到 磁盘 ， 同 时 更 新 父亲 节点 对 叶子 节点 的 指针 。 


之 前 存在 于 磁盘 的 叶子 节点 被 合并 后 ， 旧 的 数据 并 不 会 被 删除 ， 这 些 数据 会 复制 一 份 并 与 内 存 中 的 数据 一 起 顺序 写 到 磁盘 。 这 种 操作 会 浪费 一 些 空间 ， 但 是 LSM -Tree 提供 了 一 些 机 制 来 回收 这 些 空间 。 


磁盘 中 树 的 非 叶 子 节点 数据 也 被 缓存 到 内 存 中 。 数 据 查 找 会 首先 查找 内 存 中 的 树 ， 如 果 没有 查 到 结果 ， 转 而 会 查找 磁盘 中 的 树 。 


一 个 很 显然 的 问题 是 ， 如 果 数 据 量 过 于 庞大 ， 磁 盘 中 的 树 相应 地 也 会 很 大 ， 导 致 的 后 果 是 合并 的 速度 会 变 慢 。 一 个 解决 方法 是 建立 各 个 层次 的 树 ， 低 层次 的 树 都 比 上 一 层次 的 树 数据 集 大 。 假 设 内 存 中 
的 树 为 C0， 磁盘 中 的 树 按照 层次 依次 为 CI，C2，C3，.…，Ck-1，Ck。 合并 的 顺序 是 (Co, C4) ， (C1，C2) ，…， (Ck-1，Ck) 。 如 图 9-3 所 示 。 


随 着 时 间 的 推移 将 会 发 生 更 多 的 flush 操 作 ， 产 生 很 多 存储 文件 ， 一 个 后 台 进 程 负责 将 这 些 文件 聚合 成 更 大 的 文件 ， 这 样 磁盘 寻 道 操 作 就 限制 在 一 定数 目的 存储 文件 上 。 存 储 在 磁盘 上 的 树 结构 也 可 以 被 
分 割 成 多 个 存储 文件 。 因 为 所 有 的 存储 数据 都 是 按照 Key 排 序 的 ， 因 此 在 现 有 节点 中 插入 新 的 关键 字 时 不 需要 重新 排序 。 


C, tree Co tree 


图 9-3 ”滚动 合并 概念 图 


查找 通过 合并 的 方式 完成 ， 首 先 会 搜索 内 存 存 储 结构 ， 接 下 来 是 磁盘 存储 文件 。 通 过 这 种 方式 ， 从 客户 端的 角度 看 到 的 就 是 一 个 关于 所 有 已 存储 数据 的 一 致 性 视图 ， 而 不 管 数据 当前 是 否 驻 留 在 内 存 
中 。 删 除 是 一 种 特殊 的 更 新 操作 ， 它 会 存储 一 个 删除 标记 ， 在 查找 期 间 该 标记 会 用 来 跳 过 那些 已 删除 的 关键 字 。 当 数据 通过 合并 被 重新 写 回 时 ， 删 除 标记 和 被 该 标记 所 遮蔽 的 关键 字 都 会 被 丢弃 。 


于 管理 数据 的 后 台 进程 有 一 个 额外 的 特性 ， 那 就 是 可 以 支持 断言 式 的 删除 。 也 就 是 说 删除 操作 可 以 通过 在 那些 想 丢弃 的 记录 上 设 定 一 个 TTL (Time-To-Live) 值 来 触发 。 比 如 ， 设 定 TTL 值 为 20 天 ， 那 
么 20 天 后 记录 就 变 成 无 效 的 了 。 合 并 进程 会 检查 该 断言 ， 当 断言 为 true 时 ， 它 就 会 在 写 回 的 块 中 丢弃 该 记录 。 


9.1.3 ”两 种 结构 本 质 区 别 


B+ 树 和 LSM-Tree 本 质 上 的 不 同 点 在 于 它们 使 用 现代 硬件 的 方式 ， 尤 其 是 磁盘 。 对 于 大 规模 场景 ， 计 算 瓶 有 颈 在 磁盘 传输 上 。CPU、RAM 和 磁盘 空间 每 18~24 个 月 就 会 翻番 ， 但 是 寻 道 速度 每 年 大 概 才 提 


高 5%。 


从 磁盘 使 用 方面 讲 ， 有 两 种 不 同 的 数据 库 范式 : 一 种 是 寻 道 ， 另 一 种 是 传输 。RDBMS 通 常 都 是 寻 道 型 的 ， 主 要 是 由 用 于 存储 数据 的 B 树 或 者 B+ 树 结构 引起 的 ， 在 磁盘 寻 道 的 速率 级 别 上 实现 各 种 操作 ， 
通常 每 个 访问 需要 log (N) 个 寻 道 操作 。 


而 LSM-Tree 则 属于 传输 型 ， 在 磁盘 传输 速率 的 级 别 上 进行 文件 的 排序 和 合并 以 及 日 志 操作 。 根 据 如 下 的 各 项 参数 : 


10 MB/second transfer bandwidth 

10 milliseconds disk seek time 

100 bytes per entry (10 billion entries) 
10 KB per page (1 billion pages) 


在 更 新 100000000 条 记录 的 1% 时 ， 将 会 花费 : 


1，000 days with random B-tree updates 
100 days with batched B-tree updates 
1 day with sort and merge 


很 明显 ， 在 大 规模 情况 下 ， 寻 道明 显 比 传输 低 效 。 


比较 B+ 树 和 LSM-Tree 主 要 是 为 了 理解 它们 各 自 的 优 缺 点 。 如 果 没 有 太 多 的 更 新 操作 ，B+ 树 可 以 工作 地 很 好 ， 因 为 它们 会 进行 比较 繁重 的 优化 来 保证 较 低 的 访问 时 间 。 越 快 越 多 地 将 数据 添加 到 随机 的 
位 置 上 ， 页 面 就 会 越 快 地 变 得 碎片 化 。 最 终 ， 数 据 传 入 的 速度 可 能 会 超过 优化 进程 重 写 现存 文件 的 速度 。 更 新 和 删除 都 是 以 磁盘 寻 道 的 速率 级 别 进行 的 ， 这 就 使 得 用 户 受 限于 最 差 的 那个 磁盘 性 能 指标 。 


LSM-Tree 工 作 在 磁盘 传输 速率 的 级 别 上 ， 同 时 可 以 更 好 地 扩展 到 更 大 的 数据 规模 上 。 同 时 也 能 保证 一 个 比较 一 致 的 插入 速率 ， 因 为 它 会 使 用 日 志文 件 和 一 个 内 存 存储 结构 把 随机 写 操作 转化 为 顺序 写 。 
读 操作 与 写 操作 是 独立 的 ， 这 样 这 两 种 操作 之 间 就 不 会 产生 竞争 。 


存储 的 数据 通常 都 具有 优化 过 的 存放 格式 。 对 于 访问 一 个 Key 所 需 的 磁盘 寻 道 操作 数 也 有 一 个 可 预测 的 一 致 的 上 界 。 同 时 读 取 该 Key 后 面 的 那些 记录 也 不 会 再 引入 额外 的 寻 道 操作 。 通 常情 况 下 ， 一 个 基 


于 LSM-Tree 的 系统 的 开销 都 是 透明 的 : 如 果 有 5 个 存储 文件 ， 那 么 访问 操作 最 多 需要 5 次 磁盘 寻 道 。 然 而 ， 即 使 是 在 有 索引 的 情况 下 ， 你 也 没有 办 法 判断 一 个 RDBM SS 的 查询 需要 多 少 次 磁盘 寻 道 。 


92 底层 持久 化 


绝 大 部 分 的 用 户 不 需要 关心 数据 在 HBase 到 底 是 如 何 存储 的 ， 但 是 当 对 HBase 进 行 性 能 调 优 和 高 级 选项 配置 时 ， 仍 需要 了 解 这 方面 的 知识 。 例 如 ， 第 12 章 中 提 到 的 一 些 配置 参数 。 


另 一 方面 ， 如 果 HBase 相 关 进 程 诗 溃 ， 或 者 更 严重 的 情况 如 机 器 宕 机 ， 读 者 需要 恢复 数据 或 者 重新 安装 HBase， 以 及 升级 HBase 版 本 。 这 个 时 候 ， 读 者 需要 知道 数据 存储 的 路 径 ， 如 何 通过 HDFS 访 问 这 
些 数据 ， 如 何 使 用 故障 恢复 命令 等 。 读 者 可 以 利用 下 面 即将 讲 到 的 知识 来 排查 和 解决 上 面 提 到 的 各 种 问题 。 


9.2.1 存储 基本 架构 


|li 


通过 图 1-3 可 直观 、 形 象 地 理解 HBase 的 文件 存储 层 的 各 组 成 部 分 ， 


中 展示 了 HBase 与 HDFS 是 如 何 协 作 来 存储 数据 的 。 


HBase 处 理 的 两 种 基本 文件 类 型 : 一 个 用 于 WAL (Write-Ahead Log) ， 另 一 个 用 于 实际 的 数据 存储 。 文 件 主要 是 由 HRegionServer 处 理 。 在 某 些 情况 下 ，HMaster 也 会 执行 一 些 底层 的 文件 操作 。 当 
存储 在 HDFS 中 时 ， 文 件 实际 上 会 被 划分 为 很 多 小 Block。 如 果 需 要 配置 系统 来 更 好 地 处 理 更 大 或 更 小 的 文件 时 ， 则 需要 了 解 更 多 的 细节 内 容 ， 这 些 内 容 将 在 9.2.5 节 里 描述 。 


通常 的 工作 流程 是 ， 一 个 新 的 客户 端 为 找到 某 个 特定 的 行 键 首先 需要 连接 ZooKeeper Qurom。 它 会 从 ZooKeeper 检 索 持 有 -ROOT-Region 的 服务 器 名 。 通 过 这 个 信息 ， 它 询问 拥有 -ROOT-Region 的 
Regionserver， 得 到 持 有 对 应 行 键 的 .META. 表 Region 的 服务 器 名 。 这 两 个 操作 的 结果 都 会 被 缓存 下 来 ， 因 此 只 需要 查找 一 次 。 最 后 ， 它 就 可 以 查询 .META. 服 务 器 ， 然 后 检索 包含 给 定 行 键 的 Region 所 在 的 
服务 器 。 


一 旦 它 知道 了 给 定 的 行 键 所 处 的 位 置 ， 比 如 ， 在 哪个 Region 里 ， 它 也 会 缓存 该 信息 ， 同 时 直接 连接 持 有 该 Region 的 HRegionServer。 现 在 ， 客 户 端 就 有 了 去 哪里 获取 行 的 完整 信息 而 不 需要 再 去 查 
询 .META. 服 务 器 。 


Qua 在 启动 HBase 时 ，HMaster 负 责 把 Region 分 配给 每 个 HRegionServer， 包 括 -ROOT- 和 .META. 表 。 


HRegionServer 打 开 Region 然 后 创建 对 应 的 HRegion 对 象 。 当 HRegion 被 打开 后 ， 它 就 会 为 表 中 预先 定义 的 每 个 HColumnFamily 创 建 一 个 Store 实 例 。 每 个 Store 实 例 又 可 能 有 多 个 StoreFile 实 
例 ，StoreFile 是 对 被 称 为 HFile 的 实际 存储 文件 的 一 个 简单 封装 。 一 个 Store 实 例 还 会 有 一 个 Memstore， 以 及 一 个 由 HRegionServer 共 享 的 HLog 实 例 (WAL 相 关 的 类 ) 。 


9.2.2 HDFS 文 件 


HBase 在 HDFS 上 有 一 个 可 配置 的 根 目录 ， 默认 设置 为 “/hbase”。 该 路 径 是 可 以 设置 的 ， 通 过 配置 hbase-site.xm| 文 件 可 以 指定 符合 命名 规则 的 任何 路 径 


使 用 hadoop fs-ls 或 者 hadoop fs-lsr 命 令 来 查看 HBase 存 储 到 HDFS 上 的 各 种 文件 。 首 先 ， 创 建 一 个 表 : 


hbase (main) : 001: 0>create 'test', 'cfl', { SPLITS => ['rk-1000', 'rk-2000', 'rk-3000' ] } 
0 row (s) in 1.1620 seconds 


其 次 ， 初 始 化 表 : 


hbase (main) : 002: 0> 

for i in 'O'http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/..'9' do for j in 'O'http://www.hzcourse.com/resource/readBc 
for k in 'O'http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/O0EBPS/Text/..'9' do put 'test', "rk-#{i}#{j}#{k}", \ 
"cfl: #{j}#{k}", "#{j}#{k}" end end end 

0 row (s) in 0.0020 seconds 

0 row (s) in 0.0030 seconds 

0 row (s) in 0.0020 seconds 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 


再 次 ， 强 制 序列 化 到 HDFS: 


hbase (main) : 003: 0>flush 'test' 
0 row (s) in 0.9630 seconds 


最 后 ， 填 充 WAL: 


hbase (main) : 004: 0> 

for i in 'O'http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/..'9' do for j in 'O'http://www.hzcourse.com/resource/readBc 
for k in 'O'http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/..'9' do put 'test', "rk-#{i}#{j}#{k}", \ 
"cfl: #{j}#{k}", "#{j}#{k}" end end end T 

0 row (s) in 0.0800 seconds 

0 row (s) in 0.0200 seconds 

0 row (s) in 0.0030 seconds 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 


Flush 命 令 会 将 内 存 数据 写 入 存储 文件 ， 否 则 我 们 必须 等 着 它 直 到 超过 配置 的 flush 大 小 才 会 将 数据 插入 存储 文件 中 。 最 后 一 轮 的 put 命 令 循环 是 为 了 再 次 填充 WAL。 


下 面 是 上 述 操作 完成 之 后 ，HBase 根 目录 下 的 内 容 : 


bash-3.2$ hadoop fs -ls /hbase/ 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/. . 
drwxr-xr-x | - hbase supergroup 0 2013-07-04 18: 01 /hbase/-ROOT- 
drwxr-xr-x hbase supergroup 0 2013-07-04 18: 01 /hbase/.META. 
drwxr-xr-x hbase supergroup 0 2013-10-22 13: 45 /hbase/.archive 
drwxr-xr-x hbase supergroup 0 2013-09-02 22: 10 /hbase/.corrupt 
drwxr-xr-x hbase supergroup 0 2013-10-18 17: 28 /hbase/.logs 
drwxr-xr-x hbase supergroup 0 2013-10-18 19: 08 /hbase/.oldlogs 
drwxr-xr-x hbase supergroup 0 2013-10-22 13: 45 /hbase/.tmp 
-rw-r--r-- hbase supergroup 8 2013-07-04 18: 01 /hbase/hbase.id 
—EwWor--r-- hbase supergroup 3 2013-07-04 18: 01 /hbase/hbase.version 
drwxr-xr-x hbase supergroup 0 2013-10-22 13: 45 /hbase/test 


10OUQ LL) 000g gd 


使 用 hadoop fs-lsr 命 令 得 到 的 信息 如 下 : 


bash-3.2$ hadoop fs -lsr /hbase/ 

0 2013-07-04 18: 01 /hbase/-ROOT- 

728 2013-07-04 18: 01 /hbase/-ROOT-/.tableinfo.0000000001 
0 2013-07-04 18: 01 /hbase/-ROOT-/.tmp 

0 2013-07-04 19: 02 /hbase/-ROOT-/70236052 


0 2013-07-04 18: 01 /hbase/-ROOT-/70236052/.oldlogs 

421 2013-07-04 18: 01 /hbase/-ROOT-/70236052/.oldlogs/hlog.1372932101614 

109 2013-07-04 18: 01 /hbase/-ROOT-/70236052/.regioninfo 

0 2013-07-05 21: 49 /hbase/-ROOT-/70236052/.tmp 

0 2013-07-05 21: 49 /hbase/-ROOT-/70236052/info 

852 2013-07-05 21: 49 /hbase/-ROOT-/70236052/info/1430113c6c704934ab8£6d136a12a27a 
2013-07-04 18: 01 /hbase/.META. 

0 2013-07-04 21: 27 /hbase/.META./1028785192 

0 2013-07-04 18: 01 /hbase/.META./1028785192/.oldlogs 

134 2013-07-04 18: 01 /hbase/.META./1028785192/.oldlogs/hlog.1372932101948 

111 2013-07-04 18: 01 /hbase/.META./1028785192/.regioninfo 

0 2013-10-18 18: 51 /hbase/.META./1028785192/.tmp 

0 2013-10-18 18: 51 /hbase/.META./1028785192/info 

51552 2013-10-18 18: 51 /hbase/.META./1028785192/info/ac210cad578a4ef29d23757ebe27c088 
0 2013-10-22 13: 45 /hbase/.archive 

0 2013-09-02 22: 10 /hbase/.corrupt 

0 2013-10-18 17: 28 /hbase/.logs 

0 2013-10-14 13: 06 /hbase/.logs/node-128-100, 60020, 1372941184154 


图 注意 ”由 于 图 书 篇 幅 所 限 ， 我 们 对 输出 内 容 进行 了 期 减 ， 只 留 下 了 文件 大 小 和 名 称 部 分 


从 上 面 的 输出 信息 可 以 看 到 ，HBase 文 件 可 以 分 成 两 类 : 一 是 直接 位 于 HBase 根 目录 下 面 的 文件 ;二 是 位 于 表 目 录 下 面 的 文件 。 


1. 根 目录 


第 一 类 文件 是 由 HLog 实 例 处理 的 WAL 文 件 ， 这 些 文 件 创建 在 HBase 根 目录 下 一 个 称 为 ,logs 的 目录 中 。.logs 目 录 下 包含 针对 每 个 HRegionServer 的 子 目录 。 在 每 个 子 目 录 下 ， 通 常 有 几 个 HLog 文 件 ( 因 
为 日 志 的 切换 而 产生 ) ， 来 自 相同 RegionServer 的 Region 共 享 这 些 HLog 文 件 。 


对 于 最 近 创 建 的 文件 通常 日 志文 件 大 小 为 0%， 因 为 HDFS 正 使 用 一 个 内 置 的 append 支 持 来 对 文件 进行 写 入 ， 同 时 对 于 读 取 者 来 说 只 有 那些 完整 的 Block 才 是 可 用 的 ， 包 括 hadoop fs-lsr 命 令 。 尽 管 写 操 
作 的 数据 被 安全 地 持久 化 ， 但 是 当前 写 入 的 日 志文 件 大 小 信息 有 些 轻微 的 不 同步 。 


日 志文 件 每 小 时 切换 一 次 (默认 60 分 钟 ) 后 ， 这 个 时 间 是 由 hbase.regionserver.logroll.period 配 置 项 控制 。 等 日 志文 件 切 换 后 ， 可 以 查看 其 正确 大 小 ， 因 为 该 文件 已 经 被 关闭 了 ， 所 以 HDFS 可 以 获取 
正确 的 状态 。 而 其 之 后 的 新 日 志文 件 大 小 又 会 变 成 0: 


bash-3.2$ hadoop fs -ls /hbase/.logs/node-128-98, 60020, 1372932285196 
Found 2 itene. 


-rw-r--r- 3 hbase supergroup 11534 2013-10-14 13: 06 /hbase/.logs/node- 
128- 98, 60020, 1372932285196/node-128-98$2C60020$2C1372932285196.1381727191345 
-rw-r--r-- 3 hbase supergroup 0 2013-10-22 14: 11 /hbase/.logs/node-128-98, 


60020, 1372932285196/node-128-98$2C60020$2C1372932285196.1382422269710 


当日 志文 件 不 再 需要 时 ， 现 有 的 变更 已 经 持久 化 到 存储 文件 中 了 ， 它 们 就 会 被 移 到 HBase 根 目录 的 .oldlogs 目 录 中 。 这 是 在 日 志文 件 达到 上 面 的 切换 阔 值 时 触发 的 。 老 的 日 志文 件 默认 会 在 10 分 钟 后 被 
Master 删 除 ， 通 过 hbase.master.logcleaner.ttl 设 定 。Master 默 认 每 分 钟 会 对 这 些 文件 进行 检查 ， 可 以 通过 hbase.master.cleaner.interval 设 定 。 


hbase.id 和 hbase.version 文 件 包含 集群 的 唯一 ID 和 文件 格式 版 本 号 ， 这 两 个 文件 都 是 内 部 使 用 ， 通 常 无 须 关心 。 


bash-3.2$ hadoop fs -cat /hbase/hbase.id 
$4c159241-e9a5-4c4e-a8ab-245eb58c58ab 
bash-3.2$ hadoop fs -cat /hbase/hbase.version 
7 


此 外 ， 随 着 时 间 的 推移 还 会 产生 一 些 根 目录 级 的 文件 。splitlog 和 .corrupt 目 录 分 别 是 日 志 split 进 程 用 来 存储 中 间 split 文 件 的 和 损坏 的 日 志文 件 的 。.archive 用 于 存储 表 的 归档 和 快照 。 


2 表 


HBase 中 的 每 个 表 都 有 它 自己 的 目录 ， 位 于 HBase 根 目录 之 下 。 每 个 表 目 录 包 含 一 个 名 为 .tableinfo 的 顶层 文件 ， 该 文件 保存 了 针对 该 表 的 HTableDescriptor 序 列 化 后 的 内 容 ， 包 含 了 元 数据 信息 ， 同 时 
可 以 被 读 取 ， 比 如 通过 使 用 工具 可 以 查看 表 的 定义 ; .tmp 目 录 包 含 一 些 中 间 数 据 ， 比 如 当 .tableinfo 被 更 新 时 该 目录 就 会 被 用 到 。 目 录 结构 如 下 面 代码 所 示 : 


bash-3.2$ hadoop fs -ls /hbase/test/ 
Found 6 items 


-rw-r--r-- 3 hbase supergroup 663 2013-10-22 13: 45 /hbase/test/.tableinfo.0000000001 

drwxr-xr-x | - hbase supergroup 0 2013-10-22 13: 45 /hbase/test/.tmp 

drwxr-xr-x | - hbase supergroup 0 2013-10-22 13: 45 /hbase/test 
/09c6812£59abc£3183ee792de4a18f9e 

drwxr-xr-x | - hbase supergroup 0 2013-10-22 13: 45 /hbase/test 
/32b54e071a859b3e6bb4£d8£47aa9676 

drwxr-xr-x | - hbase supergroup 0 2013-10-22 13: 45 /hbase/test 
/82d0ecc11642126b08e03a7182894880 

drwxr-xr-x | - hbase supergroup 0 2013-10-22 13: 45 /hbase/test 


/ee3a91a9cc9420a20f£852e36b3ccda9 


3.Region 


在 每 个 表 目录 内 ， 针 对 表 的 Schema 中 的 每 个 列 族 会 有 一 个 单独 的 目录 。 目 录 名 称 还 包含 Region 名 称 的 MD5 哈 希 部 分 ， 比 如 通过 Master 的 Web UI， 点 击 test 表 链接 后 ， 其 Region 情 况 如 图 9-4 所 示 。 


Table Regions 


test,,1382420717334.82d0ecc11642126b08e03a7182894880. |node-128-102:60030 |rk-1000 101 
festrk-1000,1382420717335.32b54e071a859b3e6bb4[B47aa9676] node-128-92:60030 | 
test, rk-3000,1382420717335.09c6812f59abcf3183ee792de4a18f9e. | node-128-93:60030 rk-3000 | 3699 


图 9-4 Test 表 Region 


MD5 哈 希 部 分 是 通过 对 Region 名 称 的 剩余 部 分 进行 编码 生成 的 。 例 如 Region 名 称 “test，rk-1000，1382420717335.32b54e071a859b3e6bb4fd8f47aa9676.”， 其 中 test, rk- 
1000，1382420717335 是 Region 前 部 分 ，“.32b54e071a859b3e6bb4fd8f47aa9676.” 是 哈 希 。 尾 部 的 点 是 整个 Region 的 一 部 分 ， 是 一 种 包含 哈 希 的 新 风格 。 


Oza -ROOT- 和 .META. 元 数据 表 仍然 采用 老 风 格 的 格式 ， 比 如 它们 的 Region name 不 包含 哈 希 ， 因 此 结尾 就 没有 那个 点 。 在 HBase 之 前 的 版 本 中 ，Region name 中 并 不 包含 哈 希 。 


.META. 表 的 Region 命 名 规则 和 用 户 表 不 同 ， 其 格式 如 下 : 


.META., , 1.102878519 


对 于 存储 在 磁盘 上 的 目录 中 的 Region 名 称 ， 其 编码 方式 是 不 同 的 : .META. 表 使 用 Jenkins Hash 来 对 Region 名 称 编码 。 


Hash 用 来 保证 Region 名 称 总 是 合法 的 ， 根 据 文件 系统 的 规则 : 它们 不 能 包含 任何 特殊 字符 ， 比 如 “/”。 


在 每 个 列 族 下 可 以 看 到 实际 的 数据 文件 。 文 件 的 名 字 是 基于 Java 内 置 的 随机 数 生成 器 产生 的 任意 数字 。 代 码 会 保证 不 会 产生 碰撞 ， 比 如 当 发 现 新 生成 的 数字 已 经 存在 时 ， 它 会 继续 寻找 一 个 未 被 使 用 的 


Region 目 录 也 包括 一 个 .regioninfo 文 件 ， 其 中 包含 了 对 应 Region 的 HRegionlnfo 的 序列 化 信息 。 类 似 于 .tableinfo， 它 也 可 以 通过 外 部 工具 来 查看 关于 Region 的 相关 信息 。hbase hbck 工 具 可 以 用 它 
来 生成 丢失 的 表 条 目 元 数据 。 


可 选 的 .tmp 目 录 是 按 需 创建 的 ， 用 来 存储 临时 文件 ， 比 如 某 个 合并 产生 的 重新 写 回 的 文件 。 一 旦 该 过 程 结 束 ， 它 们 会 被 立即 移入 Region 目 录 。 在 极端 情况 下 ， 你 可 能 会 看 到 一 些 残留 文件 ， 在 重新 打开 
Region 时 它们 会 被 清除 。 


在 WAL 回 放 期 间 ， 任 何 尚未 提交 的 修改 会 写 入 每 个 Region 各 自 对 应 的 文件 中 。 这 是 第 一 个 阶段 ， 之 后 假设 日 志 splitting 过 程 成 功 完成 ， 然 后 会 将 这 些 文件 原子 性 地 move 到 recovered.edits 目 录 下 。 当 
打开 该 Region 时 ，RegionServer 能 够 看 到 这 些 恢复 文件 然后 回放 相应 的 记录 。 


Ors WAL 的 splitting 和 Region 的 splitting 之 间 有 明显 的 区 别 。 有 些 时 候 ， 在 文件 系统 中 很 难 区 分 文件 和 目录 的 不 同 ， 因 为 它们 两 个 都 涉及 了 splits 这 个 名 词 。 为 避免 错误 和 混淆， 这 里 强调 了 这 个 区 
别 ， 以 确保 你 已 经 理解 了 二 者 的 不 同 。 


一 旦 一 个 Region 因 为 容量 大 小 而 需要 split， 会 创建 一 个 与 之 对 应 的 splits 目 录 ， 用 来 筹划 产生 两 个 子 Region。 通 常 只 需要 几 秒 或 更 短 的 时 间 ， 该 过 程 成 功 之 后 它们 会 被 移入 表 目录 下 用 来 形成 两 个 新 的 
Region， 每 个 代表 原始 Region 的 一 半 。 


换 句 话说 ， 如 果 发 现 一 个 Region 目 录 下 没有 .tmp 目 录 ， 那 么 说 明 目 前 它 上 面 没 有 执行 合并 。 如 果 也 没有 recovered.edits 目 录 ， 那 么 说 明 目 前 没有 针对 它 的 WAL 回 放 。 


Qua 在 HBase 0.90.x 版 本 之 前 ， 一 些 额 外 的 文件 目前 已 被 废弃 了 。 其 中 一 个 是 oldlogfile.log， 该 文件 包含 了 针对 相应 的 Region 已 经 回放 过 的 write-ahead log editse Oldlogfile.log.old (加 上 一 个 .old 扩 展 
名 ) 表明 在 将 新 的 日 志文 件 放 到 该 位 置 时 ， 已 经 存在 一 个 oldlogfile.log。 男 一 个 值得 注意 的 是 在 老 版 HBase 中 的 compaction.dir， 现 在 已 经 被 tmp 目录 替换 。 


9.2.3 Region 切 分 


当 一 个 Region 内 的 存储 文件 大 于 hbase.hregion.max.filesize 时 ， 该 Region 就 需要 split ( 切 分 ) 为 两 个 。 该 过 程 完成 迅速 ， 因 为 系统 只 是 简单 地 为 新 Region (也 称 为 daughter) 创建 两 个 引用 文件 ， 
每 个 只 持 有 原始 Region 一 半 的 内 容 。 


RegionServer 通 过 在 父 Region 内 创建 切 分 目录 来 完成 。 之 后 ， 它 会 关闭 该 Region， 这 样 它 就 不 再 接受 任何 请 求 。 


然后 RegionServer 开 始 准备 生成 新 的 子 Region (多 线程 ) ， 通 过 在 切 分 目录 内 设置 必要 的 文件 结构 来 完成 。 其 中 包括 新 的 Region 目 录 及 引用 文件 。 如 果 该 过 程 成 功 完成 ， 它 就 会 把 两 个 新 的 Region 目 
录 移 到 表 目 录 中 。.META. 表 会 进行 更 新 ， 指 明 该 Region 已 经 被 切 分 ， 以 及 子 Region 分 别 的 名 称 和 位 置 等 信息 ， 这 就 避免 了 它 被 意外 地 重新 打开 。 


现在 两 个 子 Region 已 经 就 绪 ， 同 时 将 会 被 同一 个 服务 器 并 行 打开 。 现 在 需要 更 新 .META. 表 ， 将 这 两 个 Region 作 为 可 用 Region 对 待 一 一 看 起 来 就 像 是 完全 独立 的 一 样 。 同 时 会 启动 对 这 两 个 Region 的 
合并 一 一 此 时 会 异步 地 将 存储 文件 从 原始 Region 真 正 地 写成 两 半 ， 来 取代 引用 文件 。 这 些 都 发 生 在 子 Region 的 .tmp 目 录 下 。 一 旦 文件 生成 完毕 ， 它 们 就 会 原子 性 地 替换 掉 之 前 的 引用 文件 。 


原始 Region 最 终 会 被 清除 ， 意 味 着 它 会 从 .META. 表 中 删除 ， 磁 盘 上 它 的 所 有 文件 也 会 被 删除 。 最 后 ，Master 会 收 到 关于 该 split 的 通知 ， 通 过 负载 平衡 等 将 这 些 新 的 Region 移 动 到 其 他 服务 器 上 。 


在 HBase 的 配置 文件 中 ， 关 于 Region 切 分 条 件 的 设置 通过 下 面 代码 中 所 示 的 参数 设置 ， 默 认 大 小 是 10GB， 可 以 根据 实际 情况 对 该 值 进行 调整 。 


<property> 
<name>hbase.hregion.max.filesize</name> 
<value>10737418240</value> 
<description> 
Maximum HStoreFile size. If any one of a column families' HStoreFiles has 
grown to exceed this value, the hosting HRegion is split in two. 
Default: 10G. 
«/description» 

</property> 


Qus split 中 的 所 有 相关 步骤 都 会 通过 ZooKeeper 进 行 追 踪 。 这 就 允许 在 服务 器 出 错时 ， 其 他 进程 可 以 知晓 该 Region 的 状态 。 


9.2.4 合并 


存储 文件 处 于 严密 的 监控 之 下 ， 这 样 后 台 进 程 就 可 以 保证 它们 完全 处 于 控制 之 中 。MemsStore 的 flush 操 作 会 逐步 增加 磁盘 上 的 文件 数目 。 当 数目 足够 多 的 时 候 ， 合 并 (compaction) 进程 会 将 它们 合 
并 成 规模 更 少 但 是 更 大 的 文件 。 当 这 些 文件 中 最 大 的 那个 超过 设置 的 最 大 存储 文件 大 小 ， 这 时 会 触发 一 个 Region 切 分 过 程 。 


有 两 种 类 型 的 合并 : 小 合并 (minor compaction) 和 大 合并 (major compaction) 。 小 合并 负责 将 一 些小 文件 合并 成 更 大 的 文件 。 合 并 的 文件 数 通 过 hbase.hstore.compaction.min 属 性 进行 设置 ， 
默认 该 参数 设 为 3， 同 时 该 参数 必须 > =2。 如 果 设 得 更 大 点 ， 会 延迟 小 合并 的 发 生 ， 但 是 一 旦 启动 它 也 需要 更 多 的 资源 和 更 长 的 时 间 。 一 个 小 合并 所 包含 的 最 大 的 文件 数 被 设 定 为 10， 可 以 通过 


hbase.hstore.compaction.max 进 行 设置 。 


可 以 通过 设置 hbase.hstore.compaction.min.size ( 设 定 为 该 Region 的 对 应 的 MemStore 的 flush 容 量 大 小 ) 和 hbase.hstore.compaction.max.size (默认 是 Long.MAX_VALUE) 来 减少 需要 进行 小 合 
并 的 文件 列表 。 任 何 大 于 最 大 的 compaction 值 的 文件 都 会 被 排除 在 外 。 最 小 的 compaction 值 是 作为 一 个 立 值 而 不 是 一 个 限制 ， 也 就 是 说 在 达到 单 次 compaction 人 允许 的 文件 数 上 限 之 前 ， 那 些小 于 该 阅 值 
的 文件 都 会 被 包含 在 内 。 


司 9-5 展 示 了 一 个 存储 文件 集合 的 实例 。 所 有 小 于 最 小 的 合并 阔 值 的 文件 都 被 包含 进 合并 中 。 
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图 9-5 ”合并 阅 值 设置 示意 


该 算法 会 使 用 hbase.hstore.compaction.ratio (默认 值 是 1.2， 即 120%) 来 确保 总 是 能 够 选 出 足够 的 文件 来 进行 合并 。 根 据 该 比率 ， 那 些 大 于 所 有 新 于 它 的 文件 大 小 之 和 的 文件 也 能 够 被 选 入。 计算 
时 ， 总 是 根据 文件 年 龄 从 老 到 新 进行 选择 ， 以 保证 老 文件 会 先 被 合并 。 通 过 上 述 一 系列 合并 相关 的 参数 可 以 用 来 控制 一 次 小 合并 到 | 底 选 入 多 少 个 文件 。 


HBase 支 持 的 另外 一 种 合并 是 大 合并 : 它 会 将 所 有 的 文件 合并 成 一 个 。 该 过 程 的 运行 是 通过 执行 合并 检查 自动 确定 的 。 当 MemStore 被 flush 到 磁盘 ， 执 行 了 compact 或 者 major_compact 命 令 或 者 产 
生 了 相关 API 调 用 时 ， 或 者 运行 后 台 线程 ， 就 会 触发 该 检查 。RegionServer 会 通过 CompactionChecker 类 实现 来 运行 该 线程 。 


如 果 用 户 调用 了 major_ compact 命 令 或 者 majorCompact () API 调 用 ， 都 会 强制 大 合并 运行 。 否 则 ， 服 务 端 会 首先 检查 是 否 应 该 进行 大 合并 ， 通 过 查看 距离 上 次 运行 是 否 满足 一 定时 间 ， 该 值 默认 是 
24 小 时 。 


9.2.5 HFilef&xt 
HFile (HBase File) 是 HBase 使 用 的 一 种 文件 存储 格式 的 抽象 ， 目 前 存在 两 种 版 本 的 HFile: HFile V1 和 HFile V2, HBase 0.92 之 前 的 版 本 仅 支 持 HFile V1; HBase 0.92/0.94 同 时 支持 HFile V1 和 HFile 


V2， 读 兼容 两 种 格式 ， 只 写 V2 一 种 格式 。HFile 基 于 Hadoop 的 TFile 类 实现 ， 模 仿 Google 的 BigTable 架 构 中 使 用 的 SSTable 格 式 。 之 前 HBase 采 用 的 是 Hadoop MapFile 类 ， 实 践 证 明 其 性 能 不 够 高 。 下 面 
的 内 容 都 围绕 HFile V1 进行 讲解 。 图 9-6 展 示 了 HFile V1 的 具体 文件 格式 。 


图 9-6 ”HFile 结 构 示意 图 


文件 是 变 长 的 ， 定 长 的 块 只 有 file info 和 和 trailer 这 两 部 分 。 如 图 9-7 所 示 ，Trailer 中 包含 指向 其 他 Block 的 指针 。Trailer 会 被 写 入 文件 的 未 尾 。Index Block 记 录 了 Data 和 Meta Block 的 偏 移 。Data 和 
Meta Block 是 可 选 部 分 。 但 是 考虑 到 HBase 使 用 数据 文件 的 方式 ， 通 常 至 少 可 以 在 文件 中 找到 Data Block, 


Block 大 小 是 通过 HColumnDescriptor 配 置 的 ， 而 它 是 在 表 创 建 时 由 用 户 指定 的 ， 或 者 是 采用 了 默认 的 标准 值 ，Block 设 置 如 下 : 


'test', (NAME => 'cfl', DATA BLOCK ENCODING => 'NONE', BLOOMFILTER => 'NONE', REP 
LICATION SCOPE => '0', VERSIONS => '3', COMPRESSION => 'NONE', MIN VERSIONS => '0 
', TTL => '2147483647', KEEP DELETED CELLS => 'false', BLOCKSIZE => '65536', IN M 
EMORY => 'false', ENCODE ON DISK => 'true', BLOCKCACHE => 'true'] 


Block 大 小 默认 是 64KB， 通 常情 况 下 ， 官 方 推荐 将 最 小 的 Block 大 小 设 为 8KB 到 1MB。 如 果 文 件 主要 用 于 顺序 访问 ， 应 该 用 大 一 点 的 Block 大 小 。 但 是 ， 这 会 降低 随机 访问 的 性 能 (因为 有 大 量 的 数据 需 
要 进行 解压 ) 。 对 于 随机 访问 来 说 ，Block 小 一 点 会 好 些 ， 但 是 这 需要 更 多 的 内 存 来 保存 Block Index， 同 时 在 创建 文件 时 会 变 慢 (因为 写 入 数据 块 结束 时 必须 针对 压缩 编码 器 进行 flush) 。 另 外 ， 由 于 压缩 
编码 器 的 内 部 缓存 机 制 的 影响 ， 最 小 Block 大 小 大 概 是 20~30KB。 


每 个 Block 包 含 一 个 Magic 头 和 一 系列 序列 化 的 KeyValue 对 象 。 在 没有 使 用 压缩 算法 的 情况 下 ， 每 个 Block 的 大 小 大 概 就 等 于 配置 的 Block 大 小 。 并 不 是 严格 等 于 ， 因 为 writer 需 要 放 储 用 户 给 定 的 任何 
大 小 数据 。 即 使 对 于 比较 小 的 值 ， 对 Block 大 小 的 检查 也 是 在 最 后 一 个 Value 写 入 后 才 进行 的 〈 写 入 后 检查 ) ， 所 以 实际 上 大 部 分 Block 大 小 都 会 比 配置 的 大 一 些 。 


在 使 用 压缩 算法 的 时 候 ， 对 Block 大 小 就 更 无 法 控制 了 。 如 果 压 缩编 码 器 可 以 自行 选择 压缩 的 数据 大 小 ， 它 可 能 会 获取 更 好 的 压缩 率 。 比 如 将 Block 大 小 设 为 256KB， 使 用 LZO 压 缩 ， 为 了 适应 于 LZO 内 
部 缓存 大 小 ， 它 仍然 可 能 写 出 比较 小 的 Block。 


writer 并 不 知道 用 户 是 否 选择 了 一 个 压缩 算法 : 它 只 是 对 原始 数据 按照 设 定 的 Block 大 小 限制 控制 写 出 。 如 果 使 用 了 压缩 ， 那 么 实际 存储 的 数据 会 更 小 。 这 意味 着 对 于 最 终 的 存储 文件 来 说 与 不 进行 压缩 
时 的 Block 数 量 是 相同 的 ， 但 是 总 大 小 要 小 ， 因 为 每 个 Block 都 变 小 了 。 


默认 情况 下 ，HDFS 的 Block 大 小 是 64MB， 是 HFile 默 认 的 Block 大 小 的 1000 倍 。 这 样 ，HBase 存 储 文件 块 与 Hadoop 的 块 并 不 匹配 。 实 际 上 ， 两 者 之 间 根 本 没有 关系 。HBase 是 将 它 的 文件 透明 地 存储 
到 文件 系统 中 的 ， 只 是 HDFS 也 恰巧 有 一 个 Block。HDFS 本 身 并 不 知道 HBase 存 储 了 什么 ， 它 看 到 的 只 是 二 进 制 文件 。 


通过 HBase 自 带 的 工具 直接 访问 HFile，APl 中 HFile.main () 提供 了 访问 接口 ， 相 关 命 令 参数 如 下 : 


bash-3.2$ hbase org.apache.hadoop.hbase.io.hfile.HFile 
13/10/22 17: 03: 57 INFO util.ChecksumType: Checksum using org.apache.hadoop.util.PureJavaCrc32 
usage: HFile [-a] [-b] [-e] [-f <arg>] [-k] [-m] [-pl [-r <arg>] [-s] [-v] 


[-w «arg»] 

-a, --checkfamily Enable family check 

-b, --printblocks Print block index meta data 

-e, --printkey Print keys 

-f, --file «arg» File to scan. Pass full-path; e.g. 
hdfs: //a: 9000/hbase/.META./12/34 

-k, --checkrow Enable row order check: looks for out-of-order 
keys 

-m, --printmeta Print meta data of file 

-p» --printkv Print key/value pairs 

-r, --region «arg» Region to scan. Pass region name; e.g. '.META., , 1' 

=s, --stats Print statistics 

-v, —verbose Verbose output; emits file and meta data 
delimiters 

-w, --seekToRow «arg» Seek to this row and print all the kvs for this 
row only 


查看 HFile 内 容 的 命令 如 下 所 示 : 


bash-3.2$ hbase org.apache.hadoop.hbase.io.hfile.HFile -f /hbase/test/ 
09c6812f59abcf3183ee792de4al8f9e/cf1/8fd143b4al494abf9344b294a61f070b 
13/10/22 17: 07: 15 INFO util.ChecksumType: Checksum using org.apache.hadoop. 
util.PureJavaCrc32 
13/10/22 17: 07: 16 INFO hfile.CacheConfig: Allocating LruBlockCache with maximum 
size 773.4m 
13/10/22 17: 07: 16 ERROR metrics.SchemaMetrics: Inconsistent configuration. Previous 
configuration for using table name in metrics: true, new configuration: false 
bash-3.2$ hbase org.apache.hadoop.hbase.io.hfile.HFile -f /hbase/test/ 
09c6812f59abcf3183ee792de4a18f9e/cf1/8fd143b4al494abf9344b294a61f070b -v -m -p 
13/10/22 17: 07: 27 INFO util.ChecksumType: Checksum using org.apache.hadoop.util. 
PureJavaCrc32 
Scanning -> /hbase/test/09c6812f£59abcf3183ee792de4a18f9e/cf1/ 
8f£d143b4a1494abf9344b294a61f070b. 
13/10/22 17: 07: 28 INFO hfile.CacheConfig: Allocating LruBlockCache with maximum 
size 773.4m 
13/10/22 17: 07: 28 ERROR metrics.SchemaMetrics: Inconsistent configuration. Previous 
configuration for using table name in metrics: true, new configuration: false 
: rk-301/cfl: 01/1382421401281/Put/vlen-2/ts-0 V: 01 
: rk-302/cfl: 02/1382421401297/Put/vlen-2/t V 02 
:  rk-303/cfl: 03/1382421401300/Put/vlen-2/t. V: 03 


K 
K 
K: 
hi 
K: 
K: 


row-999/cf1: 99/1382421380065/Put/vle: 
K: row-999/cfl: 99/1382421358680/Put/vlen-2/ts-0 V: 99 
Block index size as per heapsize: 472 
reader=/hbase/test/09c6812f59abcf3183ee792de4a18f9e/cf1/8fd143b4a1494abf9344b294a61f070b, 
compression=none, 
cacheConf-CacheConfig: enabled [cacheDataOnRead-true] [cacheDataOnWrite-false] 
[cacheIndexesOnWrite-false] [cacheBloomsOnWrite-false] [cacheEvictOnClose-false] 
[cacheCompressed-false], 
firstKey-rk-301/cf1l: 01/1382421401281/Put, 
lastKey-row-999/cf1: 99/1382421358680/Put, 
avgKeyLen-23, 
avgValueLen 
entries-2699, 
length-94494 
Trailer: 
fileinfoOffset-93935, 
loadOnOpenDataOffset-93814, 
dataIndexCount-2, 
metaIndexCount-0, 
totalUncomressedBytes-94397, 
entryCount-2699, 
compressionCodec-NONE, 
uncompressedDataIndexSize-73, 
numDataIndexLevels-l, 
firstDataBlockOffset-0, 
lastDataBlockOffset-65580, 
comparatorClassName-org.apache.hadoop.hbase.KeyValue$KeyComparator, 
majorVersion-2, 
minorVersion-0 
Fileinfo: 
DATA BLOCK ENCODING = NONE 
DELETE FAMILY COUNT = \x00\x00\x00\x00\x00\x00\x00\x00 
EARLIEST PUT TS = \x00\x00\x01A\xDE\xBB\xDB\xAF 
KEY VALUE VERSION = \x00\x00\x00\x01 
MAJOR COMPACTION KEY = \x00 
MAX MEMSTORE TS KEY = \x00\x00\x00\x00\x00\x00\x00\x00 
MAX SEQ ID KEY = 251836006 
TIMERANGE = 1382421355439http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/..http://www.hzcourse.com/resource/readBook 
hfile.AVG KEY LEN = 23 z 
hfile.AVG VALUE LEN = 2 
hfile.LASTKEY = \x00\x07row-999\x03cf199\x00\x00\x01A\xDE\xBB\xE8X\x04 
Mid-key: \x00\x07row-597\x03cf197\x00\x00\x01A\xDE\xBC5P\x04 
Bloom filter: 
Not present 
Delete Family Bloom filter: 
Not present 
Scanned kv count -> 2699 


第 一 部 分 是 序列 化 的 KeyValue 对 象 的 实际 数据 。 第 二 部 分 除了 Trailer Block 的 细节 信息 外 ， 还 dump 出 了 内 部 的 HFile.Reader 属 性 。 最 后 一 部 分 ， 以 Filelnfo 开 头 的 是 file info block 的 值 。 


这 些 信息 是 很 有 价值 的 ， 比 如 可 以 确定 一 个 文件 是 否 进行 了 压缩 ， 以 及 采用 的 压缩 方式 。 它 也 能 告诉 用 户 存储 了 多 少 个 单元 格 ，Key 和 Value 的 平均 大 小 是 多 少 。 在 上 面 的 例子 中 ，Key 的 长 度 比 Value 
的 长 度 大 很 多 。 这 是 由 于 KeyValue 类 存储 了 很 多 额外 数据 ， 下 面 会 进行 解释 。 
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9.2.6 ”KeyValue 格 式 


HFile 中 的 每 个 KeyValue 就 是 一 个 简单 的 允许 对 内 部 数据 进行 zero-copy 访 问 的 底层 字 节 数组 ， 包 含 部 分 必要 的 解析 。 图 9-7 展 示 了 其 内 部 的 数据 格式 。 


图 9-7 KeyValue 结 构 示 意 


该 结构 以 两 个 标识 了 Key 和 Value 部 分 的 大 小 的 定 长 整数 开始 。 通 过 该 信息 就 可 以 在 数组 内 进行 一 些 操作 ， 比 如 忽略 Key 而 直接 访问 Value。 如 果 要 访问 Key 部 分 就 需要 进一步 的 信息 。 


在 上 面 的 例子 中 Key 之 所 以 比 Value 长 ， 就 是 由 于 Key 所 包含 的 这 些 字 段 造成 的 : 它 包 含 一 个 单元 格 的 完整 的 各 个 维度 上 的 信息 : Rowkey, Column Family 和 Column Qualifier 等 。 在 处 理 小 的 Value 
值 时 ， 要 尽量 让 Key 很 小 。 选 择 一 个 短 的 Rowkey 和 Column Famlify (1 字 节 的 列 族 名 称 ， 同 时 Qualifier 也 要 短 ) 来 控制 二 者 的 大 小 比例 。 


另外 ， 压 缩 有 助 于 缓解 这 种 问题 。 因 为 在 有 限 的 数据 窗口 内 ， 如 果 包 含 的 都 是 很 多 重复 性 的 数据 ， 那 么 压缩 率 会 比较 高 。 同 时 因为 存储 文件 中 的 KeyValue 都 是 排 好 序 的 ， 这 样 就 可 以 让 类 似 的 Key 靠 在 
一 起 (在 使 用 多 版 本 的 情况 下 ，Value 也 是 这 样 的 ， 多 个 版 本 的 Value 也 会 比较 类 似 ) 。 
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为 了 避免 产生 过 多 的 小 文件 ，RegionServer 在 未 收集 到 足够 数据 flush 到 磁盘 之 前 ， 会 一 直 把 它 保 储 在 内 存 中 。 但 是 ， 当 驻 留 在 内 存 中 时 数据 是 不 稳定 的 ， 可 能 会 在 服务 器 出 现 问题 (例如 宕 机 ) 时 而 丢 
失 。 


为 解决 这 个 问题 HBase 采 用 WAL 策 略 : 每 次 更 新 之 前 ， 将 数据 先 写 到 一 个 日 志 中 ， 只 有 当 写 入 成 功 后 才 通 知客 户 端 该 操作 成 功 。 服 务 端 可 以 根据 需要 在 内 存 中 对 数据 随意 地 进行 批 处 理 或 者 聚合 。 


9.3.1 ”概要 流程 


类 似 MySQL 中 的 bin-log，WAL 会 记录 下 针对 数据 的 所 有 变更 ， 在 内 存 产 生 问 题 时 ， 可 以 通过 日 志 回 放 ， 恢 复 到 服务 器 宕 机 之 前 的 状态 。 同 时 ， 这 也 意味 着 如 果 在 记录 写 入 WAL 过 程 中 失败 了 ， 那 么 整 
个 操作 也 必须 认为 是 失败 的 。 


图 9-8 清 晰 地 描述 了 WAL 在 HBase 整 个 架构 中 的 位 置 和 作用 。 接 下 来 的 内 容 将 详细 讲解 数据 更 新 的 流程 ， 并 着 重 解释 WAL 在 其 中 扮演 的 角色 。 


下 面 详细 介绍 数据 更 新 流程 。 


首先 ， 客 户 端 发 起 数据 更 新 动作 ， 比 如 执行 put () . delete () 及 increment () 调用 ， 每 个 更 新 操作 都 会 被 包装 为 一 个 KeyValue 对 象 ， 然 后 通过 RPC 调 用 发 送出 去 ， 该 调用 到 达 具 有 对 应 Region 的 
某 个 HRegionServer。 


其 次 ，KeyValue 对 象 到 达 后 ， 会 被 发 送 到 指定 的 行 键 所 对 应 的 HRegion。 数 据 会 先 写 入 WAL， 然 后 存 入 相应 的 Memstore 中 。 


最 终 ， 当 Memstore 达 到 一 定 大 小 后 ， 或 者 过 了 特定 时 间 段 后 ， 数 据 就 会 异步 地 持久 化 到 文件 系统 中 。 在 此 期 间 数据 都 存储 在 内 存 中 。WAL 可 以 保证 数据 不 会 丢失 。 


rollWriter() 


图 9-8 ”数据 更 新 流程 图 


Qs 日 志 实 际 上 是 存储 在 HDFS 上 的 ， 任 何其 他 的 服务 端 都 可 以 打开 该 日 志 然后 回放 其 中 的 修改 操作 ， 这 一 切 操 作 都 不 需要 失败 的 那 台 物理 服务 器 参与 。 


9.3.2 ”相关 Java 类 


1.HLog 


HLog 是 WAL 的 核心 实现 类 。 在 一 个 HRegion 实 例 化 时 ， 唯 一 的 一 个 HLog 实 例会 被 传递 给 它 作为 构造 函数 参数 。 当 一 个 Region 接 收 到 更 新 操作 时 ， 它 就 可 以 将 数据 直接 交 给 共享 的 WAL 实 例 。 其 相关 
要 点 如 下 : 


“ HLog 最 核心 的 是 调用 doWrite 的 append () 方法 ， 任 何 对 数据 改动 的 操作 都 就 将 首先 调用 这 个 方法 。 


- 出 于 性 能 考虑 ，put () ~ delete () 和 incrementColumnValue () 可 通过 开关 函数 setWrtiteTo-WAL (boolean) 禁用 WAL。 运 行 MapReduce Job 时 ， 可 通过 关闭 WAL 获 得 性 能 提升 。 


HLog 另 一 个 重要 特性 是 将 通过 sequence number 追 踪 数 据 改变 。 它 内 部 使 用 AtomicLong 保 证 线程 安全 。 


HLog 中 append 人 方法 的 具体 实现 如 下 面 代码 所 示 ， 从 代码 中 可 以 看 到 方法 中 使 用 了 线程 安全 机 制 、doWrite () 方法 ， 以 及 sequence number 等 。 


/** Append an entry to the log. 


public long append (HRegionInfo regionInfo, HLogKey logKey, WALEdit logEdit, 


* 
* 
* 
* 
* 
* 


* 
* 


Gparam regionInfo 

Gparam logEdit 

Gparam logKey 

Gparam doSync shall we sync after writing the transaction 
Greturn The txid of this transaction 

Gthrows IOException 

/ 


HTableDescriptor htd, boolean doSync) 


throws IOException ( 


if (this.closed) { 
throw new IOException ("Cannot append; log is closed") ; 
l 
long txid = 0; 
synchronized (updateLock) { 
long seqNum = obtainSeqNum () ; 
logKey.setLogSeqNum (seqNum) ; 
// The 'lastSeqWritten' map holds the sequence number of the oldest 
// write for each region (i.e. the first edit added to the particular 
// memstore) . When the cache is flushed, the entry for the 
// region being flushed is removed if the sequence number of the flush 
// is greater than or equal to the value in lastSeqWritten. 
this.lastSeqWritten.putlIfAbsent (regionInfo.getEncodedNameAsBytes () ， 
Long.valueOf (seqNum) ) ; 
doWrite (regionInfo, logKey, logEdit, htd) ; 
txid = this.unflushedEntries.incrementAndGet () ; 
this.numEntries.incrementAndGet () ; 
if (htd.isDeferredLogFlush O ) { 
lastDeferredTxid = txid; 
} 
$ 
// Sync if catalog region, and if not then check if that table supports 
// deferred log flushing 
if (doSync && 
(regionInfo.isMetaRegion () || 
! htd.isDeferredLogFlush () ) ) { 
// sync txn to file system 
this.sync (txid) ; 
l 


return txid; 


2.HLogKey 


HLogKey 用 于 存储 下 面 的 信息 : 


- RAH 


“Region 信息 


. HLog 的 序列 号 


“ 写 入 时 间 ， 修 改 操 作 何 时 写 入 日 志 的 时 间 截 


- Cluster ID， 以 满足 用 户 多 集群 间 的 复制 需求 


LogSyncer 用 于 定期 执行 日 志 flush 的 线程 类 ， 该 类 没有 类 修饰 符 ， 


3.LogSyncer 


属于 默认 类 ， 只 能 | 


于 org.apache.hadoop.hbase.regionserver.wal 包 范围 内 。 


通过 HTableDescriptor 可 以 设置 日 志 flush 延 迟 的 flag， 该 值 默认 是 false， 意 味 着 每 次 当 一 个 修改 操作 发 送 给 服务 器 的 时 候 ， 它 都 会 调用 日 志 writer 的 sync () 方法 。 将 日 志 flush 延 迟 flag 设 为 true， 会 


导致 修改 操作 缓存 在 RegionServer， 


如 下 : 


同时 LogSyncer 会 作为 一 个 服务 端 线程 负责 每 隔 很 短 时 间 调 用 sync () 方法 ,该 时 间 段 默认 是 1 秒 ， 可 以 通过 hbase.regionserver.optionallogflushinterval 配 置 ， 参 数 


<property> 


<name>hbase.regionserver.optionallogflushinterval</name> 
<value>1000</value> 


<description>Sync the HLog to the HDFS after this interval if it has not 


accumulated enough entries to trigger a sync. Default 1 second. Units: 
milliseconds. 
</description> 


</property> 


4.LogRoller 


日 志 大 小 通过 $HBASE_HOME/conf/hbase-site.xml 的 hbase.regionserver.logroll.period 限 制 ， 默 认 是 一 个 小 时 。 所 以 每 60 分 钟 会 打开 一 个 新 的 日 志文 件 。 久 而 久之 ,会 有 大 量 的 文件 需要 维护 。 
LogRoller 主 要 用 于 清理 日 志 。 


有 的 条 目的 序列 号 均 低 于 这 个 值 ， 如 果 存 在 ， 将 删除 该 日 志 。 


配置 文件 中 的 参数 设置 如 下 : 


<property> 


«name»hbase.regionserver.logroll.period«/name» 


首先 ，LogRoller 调 用 HLog.rollWriter () ， 定 时 滚动 日 志 ， 然 后 ， 利 用 HLog.cleanOldLogs () 可 以 清除 旧 的 日 志 。 它 首先 取得 存储 文件 中 最 大 的 sequence number， 之 后 检查 是 否 存在 一 条 日 志 所 


<value>3600000</value> 
<description>Period at which we will roll the commit log regardless 
of how many edits it has.</description> 

</property> 


控制 日 志 rolling 的 其 他 参数 如 下 ， 这 两 项 参数 的 初始 化 在 HLog 类 里 


E 


- Hbase.regionserver.hlog,blocksize: 设 定 为 文件 系统 默认 的 Block 大 小 ， 或 者 是 fs.local.block.size， 默 认 是 32MB 。 


- Hbase.regionserver.logroll.multiplier: 默认 设置 为 0.95， 当 日 志 到达 Block 大 小 的 95% 时 开始 ， 当 日 志 在 填 满 或 者 达到 固定 时 间 间 隔 后 进行 切换 。 


9.3.3 ”日志 回放 


WAL 负 责 保存 各 种 操作 日 志 ， 以 便 在 服务 器 出 现 错误 的 时 候 进行 恢复 ， 这 个 恢复 过 程 称 为 日 志 回放 。 


1. 共 用 日 志文 件 


每 个 RegionServer 上 的 所 有 修改 操作 都 写 入 同一 个 基于 HLog 的 日 志文 件 内 。 原 因 是 : 如 果 为 每 个 Region 保 存 一 个 单独 的 日 志 ， 那 么 在 文件 系统 中 将 会 有 大 量 的 文件 被 并 发 地 写 入 。 由 于 依赖 于 物理 机 
器 底层 的 文件 系统 ， 这 些 写 入 会 因为 需要 写 入 不 同 的 物理 日 志文 件 产生 大 量 的 磁盘 寻 道 操作 ， 而 造成 效率 和 可 扩展 性 低下 。 


HBase 因 为 相同 的 原因 而 采取 了 类 似 策略 : 同时 写 入 太 多 文件 ， 再 加 上 日 志 的 切换 ， 这 会 降低 可 扩展 性 。 所 以 说 这 个 设计 决定 源 自 底层 文件 系统 。 尽 管 可 以 替换 HBase 所 依赖 的 文件 系统 ， 但 是 最 常见 
的 配置 采用 的 都 是 HDFS。 


采用 这 个 日 志 存储 方式 ， 当 服务 器 宕 机 时 ， 切 分 成 合适 的 片段 对 于 恢复 状态 是 高 效 的。 因为 上 面 提 到 的 日 志 存储 方式 ， 将 所 有 的 修改 操作 掺 杂 在 一 起 ， 也 没有 什么 索引 支持 ， 这 样 Master 必 须 等 待 该 宕 
机 服务 器 的 所 有 日 志 都 分 离 完 毕 后 才能 重新 部 署 其 上 面 的 Region。 如 果 日 志 的 数量 非常 多 ， 中 间 需 要 等 待 的 时 间 可 能 会 很 长 。 


2. 日 志 切 分 


日 志 回放 中 的 情况 一 般 发 生 在 HBase 集 群 重启 或 者 服务 器 出 现 宕 机 的 情况 下 ， 这 时 Master 会 检查 文件 系统 上 的 根 目录 中 的 .logs 文 件 是 否 存在 日 志文 件 。 这 些 文件 中 的 内 容 都 有 可 能 未 被 持久 化 ， 所 以 需 
要 回放 这 些 日 志文 件 中 的 内 容 。 但 是 在 这 些 文件 中 包含 各 种 操作 ， 日 志 回放 并 不 关心 除 更 新 (Put、Delete 和 Increment) 之 外 的 其 他 操作 ， 这 些 更 新 操作 在 回放 之 前 ， 需 要 把 它们 按照 Region 剥 离 出 来 。 
这 就 是 日 志 切 分 的 过 程 : 读 取 日 志 然后 按照 每 条 记录 所 属 的 Region 分 组 ， 这 些 分 好 组 的 更 新 操作 将 会 保存 在 目标 Region 附 近 的 一 个 文件 中 ， 用 于 后 续 的 恢复 。 


日 志 切 分 的 实现 在 几乎 每 个 HBase 版 本 中 都 有 些 不 同 : 早期 版 本 通过 Master 上 的 单个 进程 读 取 文 件 。 后 来 对 它 进行 了 优化 改 成 了 多 线程 的 。 在 早期 HBase 0.92.0 版 本 中 ， 引 入 了 分 布 式 日 志 splitting 的 
念 ， 将 实际 的 工作 从 Master 转 移 到 了 所 有 的 Region Server 中 。 


现 有 版 本 HBase 使 用 ZooKeeper 来 将 每 个 被 抛弃 的 日 志文 件 分 配给 一 个 RegionServer。 同 时 通过 ZooKeeper 进 行 工 作 分 配 ， 如 果 Master 确 定 某 个 日 志文 件 已 经 准备 就 绪 ， 这 些 RegionServer 会 进行 竞 
争 性 选举 来 处 理 这 个 文件 。 最 终 一 个 RegionServer 会 成 功 ， 然 后 开始 通过 单个 线程 (避免 导致 RegionServer 过 载 ) 读 取 和 切 分 该 日 志文 件 。 


Split 过 程 首先 会 将 修改 操作 写 入 HBase 根 文件 夹 下 的 splitlog 目 录 中 。 命 令 如 下 : 


drwxr-xr-x | - hadoop supergroup 0 2013-09-16 18: 20 
/hbase/splitlog/hbase-regionserver-3, 60020, 1376015661467 hdfs$3A$2F$2Fhbase- 
master$3A9000$2Fhbase$2F.logs$2FJN-PEGASUS-115$2C6002022C1376640353958- 
splitting$2FJN-PEGASUS-115$252C60020$252C1376640353958.1379325727980 


如 上 述 代码 所 示 ， 为 了 与 其 他 日 志文 件 的 切 分 输出 进行 区 分 ， 该 路 径 已 经 包含 了 日 志文 件 名 ， 同 时 也 包含 了 表 名 称 、Region 名 称 ( 哈 希 值 ) 以 及 recovered.edits 目 录 。 最 后 ， 切 分 文件 的 名 称 就 是 针对 
相应 Region 的 第 一 个 更 新 操作 的 序列 号 。 


.COrrupt 目 录 包 含 那些 无 法 被 解析 的 日 志文 件 ， 受 hbase.hlog.split.skip.errors 属 性 影响 ， 如 果 设 为 true， 意 味 着 当 无 法 从 日 志文 件 中 读 出 任何 修改 操作 时 ， 会 将 该 文件 移入 .corrupt 目 录 。 如 果 设 为 
false， 那 么 此 时 会 抛 出 一 个 IOException， 同 时 停止 整个 的 日 志 切 分 过 程 。 


PH 


一 旦 日 志 被 成 功 切 分 后 ， 每 个 Region 对 应 的 文件 就 会 被 移入 实际 的 Region 目 录 中 。 对 于 该 Region 来 说 它 的 恢复 工作 现在 才 就 绪 。 这 也 是 为 什么 切 分 必须 要 拦截 那些 受 影响 Region 的 打开 操作 的 原 
因为 它 必须 将 那些 pending 的 修改 操作 进行 回放 。 


回 


3. 回 放流 程 


对 比 日 志 切 分 过 程 ， 日 志 回放 的 操作 相对 简单 一 些 ， 下 面 是 整个 日 志 回放 的 流程 : 


1) HRegionServer 启 动 ， 初 始 化 RegionServer 相 关 的 属性 。 


2) 打开 所 管理 的 Region， 检 查 是 否 存 在 剩余 的 日 志文 件 。 如 果 存 在 ,调用 Store.doReconstructionLog () 。 


3) 读 入 一 个 日 志 ,， 将 日 志 中 的 条 目 加 入 MemStore 中 。 如 果 存 在 多 个 文件 ， 则 重复 多 次 操作 。 


4) 将 Memstore 中 数据 flush 到 硬盘 中 。 


934 ”日志 一 致 性 


HBase 的 底层 存储 使 用 HDFS， 当 用 户 根据 需要 调 低 日 志 flush 的 时 间或 者 每 次 修改 操作 都 进行 sync 后 ， 数 据 会 持久 化 到 HDFS。 但 是 日 志 流 数据 的 持久 化 过 程 具 体 如 何 实现 ， 是 否 存在 数据 丢失 的 问题 ， 
这 还 需要 进一步 讨论 。 


比较 明确 的 一 点 是 ， 系 统 通过 日 志 来 保证 数据 安全 。 一 个 日 志文 件 最 好 能 长 时 间 处 于 打开 状态 。 当 数据 到 达 时 ， 一 个 新 的 KeyValue 对 会 被 写 入 SequenceFile 中 ， 同 时 间或 地 被 flush 到 磁盘 。 但 是 
Hadoop 并 不 是 这 样 工作 的 ， 它 之 前 提供 的 API， 通 常 都 是 打开 一 个 文件 ， 写 入 大 量 数据 ， 立 即 关闭 ， 然 后 产生 一 个 可 供 其 他 所 有 人 读 取 的 不 可 变 文件 。 只 有 当 文 件 关 闭 之 后 ， 对 其 他 人 来 说 它 才 是 可 见 的 和 
可 读 的 。 如 果 在 写 入 数据 到 文件 的 过 程 中 进程 死 掉 ， 通 常 都 会 丢失 数据 。 为 了 能 够 让 日 志 的 读 取 可 以 读 到 服务 器 crash 时 刻 最 后 写 入 的 那个 位 置 ， 或 者 尽 可 能 接近 该 位 置 ， 这 就 需要 一 个 feature:append 支 
持 。 


HBase 目 前 会 检测 底层 的 Hadoop 库 是 否 支持 syncFs () 或 者 hflush () 。 如 果 在 log writer 中 触发 一 个 sync () 调用 ， 它 就 会 调用 syncFs () 或 者 hflush () 中 的 一 个 方法 ， 或 者 不 调用 任何 方法 ， 如 
果 HBase 工 作 在 一 个 non-durable setup 上 的 话 。Sync () 将 会 使 用 流水 式 的 write 过 程 来 保证 日 志文 件 中 修改 操作 的 持久 性 。 当 服务 器 crash 时 ， 系 统 就 能 安全 地 读 取 被 抛弃 的 日 志文 件 更 新 到 最 后 的 修改 
操作 。 


9.4” 写 入 流程 


BA (Put) 操作 是 HBase 最 基本 、 最 核心 、 效 率 最 高 的 操作 ， 本 节 将 详细 介绍 整个 写 入 操作 的 内 部 流程 ， 从 客户 端 请 求 开始 ， 到 数据 写 入 磁盘 止 ， 并 结合 源 代 码 分 析 操 作 中 的 每 个 步骤 ， 以 及 需 


的 相关 事项 。 具 体 的 写 入 流程 将 分 为 客户 端 和 服务 器 端 两 个 部 分 ， 分 别 从 不 同 的 角色 共同 阐述 写 入 数据 的 流程 。 


1. 写 请 求 


注意 


客户 端 向 HTable 提 交 写 请 求 时 ， 首 先 初始 化 Configuration 和 HTable 类 ， 初 始 化 HTable 类 时 要 指定 表 名 称 ， 下 面 代码 示例 中 的 表 名 是 “test”。 然 后 ， 构 造 Put 对 象 ，Put 对 象 初始 化 需要 Rowkey， 并 


且 需 要 添加 字段 ， 下 面 代码 中 添加 了 两 个 字段 ， 这 两 个 字段 属于 同一 个 列 族 “cf1” ， 字 段 名 称 分 别 是 q1、q2， 对 应 的 值 分 别 是 v1、v2。 使 


配置 。 需 


关心 的 配置 参数 如 下 : 


Configuration 里 


* hbase.master: 


HBase 集 群 Master 的 地 址 ， 例 如 : 192.168.1.182:60000. 


* hbase.zookeeper.quorum: ZooKeeper 队 列 地 址 ， 例 如 : 192.168.1.183, 192.168.1.169, 192.168.1.173. 


* hbase.zookeeper.property.clientPort: ZooKeeper 队 列 端口 ， 例 如 : 2181. 


HTable 向 指定 HBase 集 群发 送 写 请 求 。 所 有 请 求 参 数 可 以 在 


Configuration conf = HBaseConfiguration.create () ; // 初 始 化 配置 
HTable table = new HTable (conf, "test"); // 初 始 化 HTable 
Put put = new Put (Bytes.toBytes ("rk-1") ) ; // 构 造 Put 


put.add (Bytes.toBytes ("cfl"), 
Bytes.toBytes ("v1") ) ; 
put.add (Bytes.toBytes ("cfl"), 
Bytes.toBytes ("v2") ) ; 
table.put (put) ; 


Bytes.toBytes ("q1") , 


Bytes.toBytes ("q2") , 


HTable.put () 方法 调 有 


ki 


validatePut () 方法 验证 Put 有 效 ， 主 要 是 判断 kv 的 长 度 。writeBuffer.add () 


于 写 入 缓存 区 。 


体 代码 如 下 : 


后 并 不 是 直接 提交 数据 到 服务 器 端 ， 而 是 在 简单 校 验 数据 ， 并 且 先 写 到 缓存 区 中 ， 然 后 判断 缓存 区 是 否 已 涡 


， 如 果 已 满 则 提交 数据 ， 否 则 继续 向 缓存 区 添加 。 其 


private void doPut (Put put) 
validatePut (put) ; 
writeBuffer.add (put) ; 
currentWriteBufferSize += put.heapSize () ; 
if (currentWriteBufferSize > writeBufferSize) { 
flushCommits O ; // 提 交 数 据 
} 


throws IOException{ 
DIT: 
// 写 到 缓存 区 
// 计 算 缓存 区 容量 
// 判 断 缓存 区 是 否 已 满 


} 


HTable 中 flushCommits () 方法 只 是 调用 了 HConnection 的 processBatch () 方法 , 使 


多 线程 方式 提交 写 请 求 。 


体 代码 如 下 : 


public void flushCommits () 
try { 
Object[] results = new Object[writeBuffer.size () ]; 
try { 
this.connection.processBatch (writeBuffer,  tableName, 


// 调 用 HConnection 来 提交 Put， 多 线程 处 理 ， 使 用 线程 池 


throws IOException ( 


pool, results) ; 


) catch (InterruptedException e) { 
throw new IOException (e) ; 
) finally ( 
for (int i = results.length - 1; i»-0; i-— { 


if (results[i] instanceof Result) { 
writeBuffer.remove (i) ; // 删 除 已 经 成 功 提交 的 Put 
} 
j 


} 
} finally { 
if (clearBufferOnFail) { 
writeBuffer.clear O ; 
currentWriteBufferSize = 0; 


} else { 
currentWriteBufferSize = 0; 
for (Put aPut : writeBuffer) { 


currentWriteBufferSize += aPut.heapSize () ; 
$ 
} 


// 重 新 计算 ， 不 一 定 一 次 全 部 提交 完 


} 
} 


2. 重 构 数据 


首先 ， 定 位 Put 属 于 哪 一 个 Region; 其 次 ， 判 断 Region 属 于 哪个 RegionServer; 最 后 ， 构 造 Put 与 RegionServer 之 间 的 映射 关系 ， 


要 操作 是 当前 Put 的 行 键 和 每 个 Region 的 Start Rowkey 和 Stop Rowkey 的 大 小 比较 。 


中 


构 数据 的 核心 部 分 代码 如 下 : 


于 接 下 来 批量 提交 给 RegionServer。 在 查找 Region 的 过 程 中 ， 主 


为 HBase 中 行 键 是 连续 的 ， 所 以 当前 Put 的 行 键 一 定 会 落 在 某 一 个 Region 上 。 


HConnectionManager.HConnectionImplementation.processBatchCallback 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 


Map«HRegionLocation, MultiAction<R>> actionsByServer = 
new HashMap«HRegionLocation, MultiAction<R>> O ; 
// 存 放 RegionServer 和 Put 之 间 的 映射 


for (inti = 0; i < workingList.size (); i++) { 
Row row = workingList.get (i) ; 
if (row ! = null) { 
HRegionLocation loc = locateRegion (tableName, row.getRow () ) ; 
// 定 位 Put 在 哪个 Region 


byte[] regionName = loc.getRegionInfo () .getRegionName () ; 
// 定 位 Region 在 哪个 RegionServer 
MultiAction<R> actions = actionsByServer.get (loc) ; 
// 看 该 RegionServer 上 是 否 有 批量 对 象 ， 没 有 就 创建 一 个 
if (actions == null) { 
actions = new MultiAction<R> O ; 
actionsByServer.put (loc, actions) ; 
} 
Action<R> action = new Action<R> (row, i); 
// 根 据 Put 创 建 一 个 响应 对 象 ， 放 到 批量 操作 对 象 里 ， 响 应 对 象 是 Put 和 返回 结果 的 组 合 
lastServers[i] = loc; 
actions.add (regionName, 


action) ; 


3 .提交 请 求 


此 步骤 是 重点 ， 是 直接 与 服务 器 端 进行 交互 的 部 分 。 在 该 步 中 ， 会 向 各 个 RegionServer 并 发 提交 写 请 求 。 使 用 线程 池 方 式 提交 。 


体 调 


方式 如 下 : 


HConnectionManager.HConnectionImplementation.processBatchCallback 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
Map«XHRegionLocation, Future«MultiResponse?^ futures = 

new HashMap«HRegionLocation, Future«MultiResponse»» ( 
actionsByServer.size () ) ; 
for (Entry«HRegionLocation, MultiAction«R»» e: actionsByServer.entrySet () ) { 
futures.put (e.getKey () , pool.submit (createCallable (e.getKey () , e.getValue () ， 
tableName) ) ) ; 


由 于 上 面 的 代码 还 没有 展示 直接 与 服务 器 端 交 互 的 部 分 ， 所 以 需要 继续 深入 跟 进 。 下 面 的 代码 介绍 了 Callable 是 如 何 进行 调用 的 。 首 先 创建 RegionServer 的 连接 ， 然 后 调 


批量 提交 写 请 求 。 


RegionSserver 的 multi 方 法 


HConnectionManager.HConnectionImplementation.createCallable 
private <R> Callable«MultiResponse» createCallable (final HRegionLocation loc, 
final MultiAction«R» multi, final byte [] tableName) ( 
final HConnection connection - this; 
return new Callable«MultiResponse» () ( 
public MultiResponse call () throws IOException { 
ServerCallable«MultiResponse» callable = 
new ServerCallable<MultiResponse> (connection, tableName， null) { 
public MultiResponse call () throws IOException { 
return server.multi (multi) ; // 其 次 ， 提 交 请 求 
) 


GOverride 
public void connect (boolean reload) throws IOException { 
server = connection.getHRegionConnection (loc.getHostname (), loc.getPort () ) ; 


// 首 先 ， 创 建 连接 
} 


return callable.withoutRetries () ; 
} 
h 
} 


4. 等 待 结果 


等 待 请 求 处 理 结果 。 处 理 结果 可 能 是 成 功 和 异常 ， 对 批量 处 理 来 讲 ， 这 两 种 情况 很 可 能 同时 存在 。 其 主要 代码 逻辑 如 下 : 


HConnectionManager.HConnectionImplementation.processBatchCallback 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
for (Entry«HRegionLocation, Future«MultiResponse»» responsePerServer 
futures.entrySet () ) ( 
HRegionLocation loc - responsePerServer.getKey () ; 
try { 
Future«MultiResponse» future = responsePerServer.getValue () ; 
MultiResponse resp = future.get O ; 
if (resp == nulD { 
// Entire server failed 


LOG.debug ("Failed all for server: " + loc.getHostnamePort () + 
", removing from cache") ; 
continue; 
i 
for (Entry<byte[], List<Pair<Integer, Object>>> e : resp.getResults () .entrySet O ) { 


byte[] regionName = e.getKey () ; 
List<Pair<Integer， Object>> regionResults = e.getValue () ; 
for (Pair<Integer, Object> regionResult : regionResults) { 
if (regionResult == null) { 
// if the first/only record is 'null' the entire region failed. 
LOG.debug ("Failures for region: " + 
Bytes.toStringBinary (regionName) + 
", removing from cache") ; 


} else { 
// Result might be an Exception, including DNRIOE 
results[regionResult.getFirst O ] = regionResult.getSecond () ; 
if (callback ! = null && ! (regionResult.getSecond () instanceof Throwable) ) { 


callback.update (e.getKey () ， 
list.get (regionResult.getFirst () ) .getRow O) ， 
(R) regionResult.getSecond () ) ; 
} 
} 
l 


} catch (ExecutionException e) { 
LOG.warn ("Failed all from " + loc, e); 
} 
} 


5. 识 别 错误 并 重 试 


从 请 求 返回 中 提取 失败 的 结果 ， 并 将 该 结果 对 应 的 写 请 求 重新 添加 到 workingList 中 ， 以 便 重 试 请 求 。 


HConnectionManager.HConnectionImplementation.processBatchCallback 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
retry - false: 
workingList.clear () ; 
actionCount = 0; 
for (inti = 0; i < results.length; i++) { 
// if null (fail) or instanceof Throwable && not instanceof DNRIOE 
// then retry that row. else dont. 
if (results[i] == null || 
(results[i] instanceof Throwable && 
! (results[i] instanceof DoNotRetrylOException) ) ) { 
retry - true; 
actionCount-t; 
Row row = list.get (i) ; 
workingList.add (row) ; // 添 加 到 工作 列表 中 
deleteCachedLocation (tableName, row.getRow () ) ; // 删 除 缓存 中 的 地 址 
) else ( 
if (results[i] ! = null && results[i] instanceof Throwable) { 
actionCount++; 


} 

// add null to workingList, so the order remains consistent with the 
original list argument. 

workingList.add (null) ; 


9.4.2 ”服务 器 端 


对 于 写 请 求 ， 服 务 器 端的 入 口 是 HRegionServer 的 multi () 方法 ， 下 面 的 流程 就 从 此 方法 开始 介绍 。 


1. 获 取 Region 


根据 Region 名 字 获取 Region 对 象 ， 主 要 方法 是 getRegion () 。 获 取 Region 之 后 ， 将 写 入 数据 所 封装 的 对 象 ， 批 量 更 新 到 Region 上 ， 当 然 ， 需 要 调用 获取 Region 自 身 的 方法 。 从 下 面 的 主要 代码 中 可 
以 看 到 ， 该 方法 名 称 是 batchMutate () 。 


org.apache.hadoop.hbase.regionserver.HRegionServer.multi 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
if (! mutations.isEmpty O ) { 
try ( 
HRegion region = getRegion (regionName) ; 
if (! region.getRegionInfo () .isMetaTable O ) ( 
this.cacheFlusher.reclaimMemStoreMemory () ; 
) 
List«Pair«Mutation, Integer?» mutationsWithLocks = 
Lists.newArrayListWithCapacity (mutations.size () ) ; 
for (Action«R» a : mutations) ( 
Mutation m = (Mutation) a.getAction () ; 
Integer lock: 
try ( 
lock = getLockFromId (m.getLockId () ) ; 
) catch (UnknownRowlockException ex) ( 
response.add (regionName, a.getOriginalIndex O , ex); 
continue; 


mutationsWithLocks.add (new Pair«Mutation, Integer» (m lock) ); 
} 
this.requestCount.addAndGet (mutations.size () ) ; 
OperationStatus[] codes = 
region.batchMutate (mutationsWithLocks.toArray (new Pair[]{}) ) : 
for( int i =0; i < codes.length ; i++) { 
OperationStatus code = codes[i]; 
Action<R> theAction = mutations.get (i) ; 
Object result = null; 
if (code.getOperationStatusCode () == OperationStatusCode.SUCCESS) { 
result = new Result () ; 
} else if (code.getOperationStatusCode () 
== OperationStatusCode.SANITY CHECK FAILURE) { 
// Don't send a FailedSanityCheckException as older clients will not know about 
// that class being a subclass of DoNotRetryIOException 
// and will retry mutations that will never succeed. 
result = new DoNotRetryIOException (code.getExceptionMsg () ) ; 
) else if (code.getOperationStatusCode () == OperationStatusCode.BAD FAMILY) { 
result = new NoSuchColumnFamilyException (code.getExceptionMsg () ) p 


} 
// FAILURE && NOT RUN becomes null, aka: need to run again. 
response.add (regionName, theAction.getOriginalIndex () , result); 
} 
} catch (IOException ioe) { 
// fail all the puts with the ioe in question. 
for (Action<R> a: mutations) { 
response.add (regionName, a.getOriginalIndex () , ioe); 
) 
} 
} 


2. 准 备 写 入 


该 步骤 中 处 理 写 入 数据 前 需要 处 理 的 内 容 ， 包 含 Region 检 测 、 上 锁 、 解 锁 、 判 断 是 否 flush 等 。 其 中 ，Region 检 测 和 将 从 Region 是 否 可 读 写 、 更 新 操作 所 昌 
实现 的 锁 机 制 避免 出 现 脏 数 据 。 当 锁 使 用 完成 后 ， 要 进行 解锁 。 数 据 写 入 进行 flush 大 小 判断 ， 如 果 达 到 阔 值 ， 则 进行 flush 操 作 。 


资源 是 否 准备 就 绪 开 始 。 其 中 使 用 HBase 内 置 


org.apache.hadoop.hbase.regionserver.HRegion.batchMutate () 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
public OperationStatus[] batchMutate ( T 
Pair«Mutation, Integer>[] mutationsAndLocks) throws IOException { 
BatchOperationInProgress«Pair«Mutation, Integer>> batchOp = 
new BatchOperationInProgress «Pair «Mutation, Integer >> (mutationsAndLocks) : 
boolean initialized - false; 
while (! batchOp.isDone O ) { 
checkReadOnly © ; 
checkResources O ; 
long newSize; 
startRegionOperation () ; 
try ( 
if (! initialized) { 
this.writeRequestsCount.increment () ; 
this.opMetrics.setWriteRequestCountMetrics (this.writeRequestsCount.get () ) ; 
doPreMutationHook (batchOp) ; 
initialized - true; 
} 
long addedSize = doMiniBatchMutation (batchOp) ; 
newSize = this.addAndGetGlobalMemstoreSize (addedSize) ; 
) finally ( 
closeRegionOperation () ; 
} 
if (isFlushSize (newSize) ) { 
requestFlush () ; 
} 
} 
return batchOp.retCodeDetails; 


请 求 尽 可 能 多 的 锁 ， 最 少 需要 一 个 。 下 面 的 代码 是 获取 锁 的 详细 方法 ， 需 要 根据 lockid、row 和 是 否 等 待 锁 的 三 个 参数 进行 构造 。 请 求 完 锁 之 后 需要 保存 锁 的 ID ， 以 便 使 用 过 后 解锁 。 


org.apache.hadoop.hbase.regionserver.HRegion.getLock 
protected Integer getLock (Integer lockid, HashedBytes row, boolean waitForLock) 
throws IOException ( 
Integer lid; 
if (lockid == null) { 
lid = internalObtainRowLock (row, waitForLock) ; 
} else ( 
HashedBytes rowFromLock = lockIds.get (lockid) ; 
if (! row.equals (rowFromLock) ) { 
throw new IOException ("Invalid row lock: LockId: " + lockid + " holds the 
lock for row: ^" + rowFromLock + " but wanted lock for row: " + row); 
} 
lid = lockid: 
l 
return lid; 


} 


4. 更 新 时 间 戳 


如 果 客 户 端 没 有 指定 版 本 ， 则 获取 当前 系统 时 间作 为 数据 版 本 。 反 之 ， 则 使 用 指定 的 时 间作 为 版 本 的 时 间 戳 。 主 要 代码 如 下 : 


org.apache.hadoop.hbase.regionserver.HRegion.batchMutate () 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
for (int i = firstIndex: i < lastIndexExclusive; i++) { 7 
// skip invalid 
if (batchOp.retCodeDetails[i].getOperationStatusCode () 
! = OperationStatusCode.NOT RUN) continue; 
Mutation mutation = batchOp.operations[i].getFirst () ; 


if (mutation instanceof Put) { 
updateKVTimestamps (familyMaps[i].values () , byteNow) ; 
noOfPuts-t; 

) else ( 
prepareDeleteTimestamps (familyMaps[i]. byteNow) ; 
noOfDeletes-*; 


5.5; AMemStore 


数据 首先 要 写 入 MemStore (FF) 中 。 从 前 面 的 讲解 中 ， 我 们 得 知 应 该 先 写 HLog， 这 里 先 写 MemStore 也 是 没 问题 的 ， 因 为 MemSstore 的 MVCC (多 版 本 并 发 控制 ) 不 会 向 前 滚动 ， 这 些 变化 在 更 
新 MVCC 之 前 ，Scan 是 无 法 看 到 的 ， 所 以 不 要 存在 什么 困惑 。 主 要 代码 如 下 : 


org.apache.hadoop.hbase.regionserver.HRegion.batchMutate () 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
long addedSize = 0; n 
for (int i = firstIndex; i < lastIndexExclusive; i++) { 
if (batchOp.retCodeDetails[i].getOperationStatusCode () 
! = OperationStatusCode.NOT RUND ( 
continue; 


} 
addedSize += applyFamilyMapToMemstore (familyMaps[i], w); 
} 


6. 更 新 WAL 


首先 ,创建 WALEdit， 并 将 当前 涉及 的 写 入 数据 添加 到 该 对 象 中 ; 其 次 ,将 WALEdit 添 加 到 HLog 中 ， 而 不 同步 ; 再 次 ， 解锁， 对 应 前 面 的 上 锁 过 程 ; 然后， 同步 HLog; 最 后 , MVCC, 成 功 写 入 
MemsStore， 使 得 所 有 写 入 数据 对 Scan 和 Get 可 见 。 


要 逻辑 如 下 面 代码 所 示 : 


org.apache.hadoop.hbase.regionserver.HRegion.batchMutate () 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
T REOUI GERMEN RERE MED REDE DL 2 
// STEP 4. Build WAL edit 
I aa 
Durability durability - Durability.USE DEFAULT; 
for (int i = firstIndex; i < lastIndexExclusive; i++) { 
// Skip puts that were determined to be invalid during preprocessing 
if (batchOp.retCodeDetails[i].getOperationStatusCode () 
! = OperationStatusCode.NOT RUND ( 
continue; 
} 
batchOp.retCodeDetails[i] = OperationStatus.SUCCESS; 
Mutation m = batchOp.operations[i].getFirst O ; 
Durability tmpDur = m.getDurability O ; 
if (tmpDur.ordinal () > durability.ordinal O ) ( 
durability = tmpDur; 
} 
if (tmpDur == Durability.SKIP WAL) { 
if (m instanceof Put) { 
recordPutWithoutWal (m.getFamilyMap OO) ; 


} 


continue; 


} 
// Add WAL edits by CP 
WALEdit fromCP = batchOp.walEditsFromCoprocessors [i]; 
if (fromCP ! = null) { 
for (KeyValue kv : fromCP.getKeyValues () ) { 
walEdit.add (kv) ; 
) 


) 
addFamilyMapTOWALEdit (familyMaps[i];  walEdit) ; 


ii 

Mutation first = batchOp.operations[firstIndex].getFirst O ; 

txid = this.log.appendNoSync (regionInfo, this.htableDescriptor.getName () , 
walEdit, first.getClusterId (), now, this.htableDescriptor) ; 


if (locked) { 
this.updatesLock.readLock () .unlock () ; 
locked = false: 


if (acquiredLocks ! = null) ( 
for (Integer toRelease : acquiredLocks) ( 
releaseRowLock (toRelease) ; 
} 
acquiredLocks = null; 
rowsAlreadyLocked = null; 


if (walEdit.size OO > 0) ( 
syncOrDefer (txid, durability) ; 
) 
walSyncSuccessful = true; 
// calling the post CP hook for batch mutation 
if (coprocessorHost ! = null) { 
MiniBatchOperationInProgress«Pair«Mutation, Integer?» miniBatchOp = 
new MiniBatchOperationInProgress«Pair«Mutation, Integer>> (batchOp.operations, 
batchOp.retCodeDetails, batchOp.walEditsFromCoprocessors, firstIndex， 
lastIndexExclusive) ; 
coprocessorHost.postBatchMutate (miniBatchOp) ; 


if (w! { 
mvcc.completeMemstoreInsert (w) ; 
w= null 


9.5 fuz 


前 面 的 章节 已 经 提 及 HBase 的 查询 操作 主要 包含 两 类 : GetlScan. APANAR, ARBAMAEREOxS, AVERE TER EAEE. BÜPTRUISERSBU— DB "SA 
流程 ”相同 ， 从 源 代码 级 别 展开 讲解 。 


9.5.1 ”两 种 查询 操作 


在 HBase 之 前 的 版 本 中 ，Get 方 法 的 确 是 单独 实现 的 。 现 有 版 本 进行 了 改变 ， 目 前 它 内 部 已 经 和 Scan API 使 用 相同 的 代码 。 按 照常 理 理解 ，Get 方 法 是 简单 通过 Key 查 找 Value， 应 该 和 Scan 操作 


待 ， 这 样 不 仅 可 以 对 Get 进 行 单独 优化 ， 而 且 低 耦合 的 模块 结构 更 容易 维护 。 


按照 官方 解释 ， 这 是 由 HBase 自 身 架构 导致 的 。 由 于 HBase 内 部 没有 任何 的 索引 文件 来 支持 直接 访问 某 个 特定 的 行 或 列 。 最 小 的 访问 单元 就 是 HFile 中 的 一 个 Block， 为 了 找到 被 请 求 的 数 


Scan。 


所 以 ， 在 接 下 来 的 讲解 中 不 再 区 分 Get 和 Scan， 以 Get 操 作为 例 进行 查询 操作 的 讲解 。 


95.2 Pm 


客户 端 在 构造 Get 对 象 后 ， 调 用 HTable 的 get () 方法 发 出 查询 请 求 。Get () 方法 内 部 构造 了 一 个 实现 Callable 接 口 的 抽象 类 ServerCallable 进 行 远程 调用 。 调 用 后 ， 客 户 端 进入 
为 pausexHConstants.RETRY_BACKOFF[ntries]， 这 些 内 容 在 withRetries () 方法 中 配置 ， 有 结果 则 中 断 执行 返回 RPC 结 果 ， 默 认 重复 10 次 。 下 面 是 相关 参数 的 默认 值 : 


回 


据 ，RegionServer 和 底层 Store 实 例 必须 加 载 那些 可 能 包含 该 数据 的 Block， 然 后 进行 扫描 。 实 际 上 这 本 身 就 是 Scan 的 操作 过 程 。 换 名 话说 ，Get 本 质 上 就 是 Scan， 是 一 个 从 Start Row 到 Start Row+1 的 


睡眠 状态 ， 睡 眠 时 间 


pause- HBASE CLIENT PAUSE (1 秒 ) 
RETRY BACKOFF[] = {1, L L 2, 2, 4 4 8 16 32] 
DEFAULT HBASE CLIENT RETRIES NUMBER-10 


下 面 是 get () 方法 的 代码 : 


org.apache.hadoop.hbase.client.HTable.get 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
public Result get (final Get get) throws IOException ( 
return new ServerCallable«Result» (connection, tableName, get.getRow () , 
operationTimeout) ( 
public Result call () throws IOException ( 
return server.get (location.getRegionInfo () .getRegionName (), get); 
} 
).withRetries () ; 


9.5.3 ”服务 器 端 


1. 定 位 Region 


HBase 有 两 个 元 数据 表 : -ROOT- 和 .META.。-ROOT- 表 用 于 保存 .META. 表 所 有 的 Region 信 息 。HBase 架 构 设 计 中 -ROOT- 表 只 有 一 个 Region， 同 时 永远 不 会 被 切 分 。.META. 表 用 于 存放 实际 的 


户 表 的 Region 信 息 。 


的 。 所 以 ， 客 户 端 采用 一 种 递归 的 方式 逐 层 向 上 地 找到 当前 的 信息 ， 它 会 询问 与 给 定 Rowkey 匹 配 的 .META. 表 的 Region 所 属 的 RegionServer 地 址 。 如 果 信 息 是 无 效 的 ， 它 就 退回 到 上 
的 .META. 表 Region 的 位 置 。 最 后 ， 如 果 也 失败 了 ， 则 读 取 ZooKeeper 节 点 以 找到 -ROOT- 表 Region 的 位 置 。 


在 最 坏 情况 下 ， 将 会 需要 6 次 网 络 传输 才能 找到 用 户 Region， 因 为 只 有 当 查 找 失败 时 才能 发 现 无 效 记 录 。 在 缓冲 为 空 的 情况 下 ， 客 户 端 需要 3 次 网 络 传输 来 完成 缓存 更 新 。 一 种 降 人 


方法 是 对 位 置信 息 进行 预 取 ， 提 前 更 新 客户 端 缓存 。 


下 面 是 涉及 Region 定 位 的 相关 代码 : 


户 表 


的 Region 位 置信 息 。 需 要 保证 一 个 三 层 的 类 B+ 树 查找 模式 : 第 一 层 存 储 在 ZooKeeper 上 ， 保 存 -ROOT- 表 的 Region 信 息 ; 第 二 层 到 -ROOT- 表 中 查找 匹配 的 .META. 表 的 Region; 第 三 层 到 .META. 表 中 检索 


客户 端 会 缓存 已 经 访问 过 的 Region 的 位 置信 息 (缓存 在 ZooKeeper 上 ) ， 但 是 客户 端 在 首次 查询 时 需要 发 送 请 求 或 者 Region 发 生变 化 ， 例 如 被 切 分 为 两 个 Region 或 者 发 生 移动 ， 此 时 的 缓存 是 无 效 
层 询问 -ROOT- 表 对 应 


氏 这 种 网 络 传输 次 数 的 


org.apache.hadoop.hbase.client.HConnectionManager.locateRegion 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
private HRegionLocation locateRegion (final byte [] tableName, 

final byte [] row, boolean useCache, boolean retry) 

throws IOException ( 
if (this.closed) throw new IOException (toString () + " close 
if (tableName == null || tableName.length == 0) 
throw new IllegalArgumentException ( 
"table name cannot be null or zero length") ; 


) 
ensureZooKeeperTrackers O ; // 初 始 化 ZooKeeper 地 址 ， 线 程 安全 的 方法 
if (Bytes.equals (tableName, HConstants.ROOT TABLE NAME) ) { 
try { 
Serveroné servername = this.rootRegionTracker.waitRootRegionLocation 
(this.rpcTimeout) ; // 获 取 ServerName 
LOG.debug ("Looked up root region location, connection=" + this + 
"; serverName-" + ( (servername == null) ? ""; servername.toString O ) ) ; 
if (servername 一 null) return null; 
return new HRegionLocation (HRegionInfo.ROOT REGIONINFO, 
servername.getHostname () , servername.getPort () ) ; // 构 造 地 位 并 返回 
) catch (InterruptedException e) ( 
Thread.currentThread () .interrupt (O) ; 
return null; 
) 
) else if (Bytes.equals (tableName, HConstants.META TABLE NAME) ) ( 
return locateRegionInMeta (HConstants.ROOT TABLE NAME, tableName, row, 
useCache, metaRegionLock, retry) ; 
) else { 
// Region not in the cache - have to go to the meta RS 
return locateRegionInMeta (HConstants.META TABLE NAME, tableName, row, 
useCache, userRegionLock, retry) ; 


2 数据 校 验 和 转换 


首先 ， 检 测 列 族 是 否 合 法 ， 保 证 Get 中 的 列 族 存在 表 中 。 如 果 Get 中 没有 列 族 ， 则 将 表 的 所 有 列 族 都 添加 到 方法 中 。 主 要 代码 如 下 : 


org.apache.hadoop.hbase.regionserver.HRegion.get 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
checkRow (get.getRow (), "Get") ; 
// Nerify families are all valid 
if (get.hasFamilies () ) { 
for (byte [] family: get.familySet O ) ( 
checkFamily (family) ; // 检 测 列 族 


} else ( // Adding all families to scanner 
for (byte[] family: this.htableDescriptor.getFamiliesKeys O ) { 
get.addFamily (family) ; // 添 加 所 有 列 族 
} 
l 
List«KeyValue» results = get (get, true); 


其 次 ， 将 Get 转 化 为 Scan。 这 里 也 证 明了 现 有 HBase 架 构 中 Get 方 法 底层 实现 其 实 使 用 的 还 是 scan。 本 小 节 以 使 用 Get 为 例 ， 解 释 Get 底 层 由 Scan 实现 也 是 主要 原因 之 一 。 下 面 是 涉及 的 主要 代码 : 


org.apache.hadoop.hbase.regionserver.HRegion.get 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
// pre-get CP hook 
if (withCoprocessor && (coprocessorHost ! = null) ) { 
if (coprocessorHost.preGet (get, results) ) ( 
return results; 
) 
f 
Scan scan = new Scan (get) ; //Get 转 化 为 Scan 
RegionScanner scanner = null; 
try { 
Scanner = getScanner (scan) ; 
scanner.next (results, SchemaMetrics.METRIC GETSIZE) ; 
) finally ( 
if (scanner ! = null) 
scanner.close O ; 


3.Region 内 查询 


首先 ，RegionScanner 初 始 化 。 将 Get 方 法 转化 为 Scan， 直 接 构造 的 是 RegionScanner， 每 一 个 Region 都 会 有 一 个 RegionScanner。 构 造 过 程 中 ， 如 下 面 代 码 所 示 ，additionalScanners 为 null， 所 以 
在 RegionScannerlmpl 的 构造 中 只 会 使 用 StoreScanner， 这 个 在 下 面 的 讲解 中 会 有 详细 的 介绍 。 


org.apache.hadoop.hbase.regionserver.HRegion 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
Scanner = getScanner (scan) ; T 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
public RegionScanner getScanner (Scan scan) throws IOException { ` 

return getScanner (scan, null); 

} 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
return instantiateRegionScanner (scan, additionalScanners) ; B 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
return new RegionScannerImpl (scan, additionalScanners) ; E 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 


其 次 ， 构 造 StoreScanner。StoreScanner 是 列 族 级 别 的 扫描 器 ， 所 以 SoreScanner 可 能 会 有 多 个 ， 因 为 表 的 列 族 可 能 会 是 多 个 。 下 面 的 代码 中 详细 介绍 了 RegionScanner 是 如 何 构造 StoreScanner 
的 。StoreScanner 实 现 了 KeyValueScanner、InternalScanner 等 接口 ， 所 以 在 下 面 的 代码 中 是 使 用 “多 态 ” 的 方式 生成 SoreScanner。 


org.apache.hadoop.hbase.regionserver.HRegion.RegionScannerImpl.RegionScannerImpl 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
for (Map.Entry«byte[], NavigableSet«byte[]»» entry : B 
scan.getFamilyMap () .entrySet () ) { 
Store store = stores.get (entry.getKey () ) ; 
KeyValueScanner scanner = store.getScanner (scan, entry.getValue O ) ; 
if (this.filter == null || ! scan.doLoadColumnFamiliesOnDemand (>) 
|| FilterBase.isFamilyEssential (this.filter, entry.getKey O ) ) { 
Scanners.add (scanner) ; 
) else { 
joinedScanners.add (scanner) ; 
) 
) 


下 面 是 Store 类 的 关键 代码 : 


org.apache.hadoop.hbase.regionserver.Store 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
public KeyValueScanner getScanner (Scan scan, 
final NavigableSet«byte []» targetCols) throws IOException { 
lock.readLock () .lock O ; 


try ( 
KeyValueScanner scanner - null; 
if (getHRegion () .getCoprocessorHost () ! = null) ( 


scanner - getHRegion () .getCoprocessorHost () .preStoreScannerOpen (this, 
Scan, targetCols) ; 
} 
if (scanner == null) { 
scanner = new StoreScanner (this, getScanInfo (), scan, targetCols) ; 
) 
return scanner; 
) finally ( 
lock.readLock () .unlock () ; 
) 
) 


然后 ， 构 造 MemStoreScanner 和 StoreFileScanner。StoreScanner 中 有 成 员 变 量 Store， 而 每 个 Store 变 量 获取 其 扫描 器 时 会 构造 MemStoreScanner 和 StoreFileScanner。 其 中 ,，MemStoreScanner 
只 有 一 个 ， 而 StoreFileScanner 会 有 多 个 。 具 体 的 构造 过 程 如 下 : 


org.apache.hadoop.hbase.regionserver.Store 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 


[** 
* Get all scanners with no filtering based on TTL (that happens further down 
* the line) . 
* (return all scanners for this store 
xj 


protected List«KeyValueScanner» getScanners (boolean cacheBlocks, 
boolean isGet, 
boolean isCompaction, 
ScanQueryMatcher matcher) throws IOException ( 
List«StoreFile» storeFiles; 
List«KeyValueScanner» memStoreScanners; 
this.lock.readLock () .lock © ; 


try { 

storeFiles = this.getStorefiles () ; 

memStoreScanners = this.memstore.getScanners () ; // 构 造 MemstoreScanner 
) finally ( 


this.lock.readLock () .unlock O) ; 
j 
// First the store file scanners 
// TODO this used to get the store files in descending order, 
// but now we get them in ascending order, which I think is 
// actually more correct, since memstore get put at the end. 
List«StoreFileScanner» sfScanners - StoreFileScanner 
-getScannersForStoreFiles (storeFiles, cacheBlocks, isGet, isCompaction, matcher) ; 
List«KeyValueScanner» scanners - 
new ArrayList«KeyValueScanner? (sfScanners.size () +1) ; // 构 造 StoreFileScanner 
scanners.addAll (sfScanners) ; 
// Then the memstore scanners 
Scanners.addAll (memStoreScanners) ; 
return scanners; 


最 后 ， 查 找 数 据 。Scanner 构 造 完毕 以 后 ， 当 调用 最 上 层 的 RegionScanner.next () 时 ， 首 先 会 从 MemsStoreScanner 中 获取 ， 如 果 没 有 或 者 版 本 数 不 足 ， 则 再 从 Storefilescanner 中 获取 ， 而 从 


StorefileScanner 获 取 时 ， 先 查看 是 否 在 Blockcache 中 ， 如 果 未 命中 则 再 从 底层 的 HDFS 中 获取 ， 并 根据 设置 决定 是 否 将 获取 的 数据 写 入 到 LruBlockCache 中 。 


查找 过 程 中 先 会 根据 时 间 戳 或 者 查询 列 的 信息 进行 过 滤 ， 过 滤 那 些 肯定 不 含有 所 需 数据 的 StoreFile 或 者 MemSstore， 尽 量 缩小 查询 目标 范围 。 在 StoreFile 或 MemStore 中 数据 是 从 小 到 大 进行 排序 的 ， 
排序 规则 是 按 KeyValue 的 大 小 、 行 键 、 列 族 、 列 、 时 间 戳 和 类 型 进行 。 首 先 查看 每 个 storeFile 的 最 小 Rowkey， 然 后 按照 从 小 到 大 的 顺序 进行 排序 ， 结 果 放 到 一 个 队列 中 ， 排 序 的 算法 就 是 按照 HBase 的 三 
维 顺 序 ， 按 照 行 键 、 列 族 、 列 、 时 间 惟 进行 排序 ， 行 键 、 列 族 和 列 是 升序 ， 而 时 间 惟 是 降序 。 最 终 ， 直 到 获取 对 应 的 数据 ， 如 果 没 有 符合 条 件 的 数据 ， 则 返回 空 。 


9.6 ”数据 备份 


Replication (数据 备份 ) 是 在 不 同 的 HBase 集 群 之 间 复 制 数 据 的 一 种 方式 。 它 可 以 作为 一 种 灾难 恢复 的 解决 方案 ， 也 可 以 用 于 提供 更 高 的 可 用 性 。 同 时 它 也 能 提供 一 些 更 实用 的 东西 ， 比 如 ， 可 以 作为 
从 面向 Web 的 集群 中 复制 最 新 的 更 新 内 容 到 Hadoop 集 群 ， 然 后 利用 MapReduce 任 务 对 新 老 数 据 进行 处 理 并 返回 结果 。 


9.6.1 备份 机 制 架构 


备份 采用 的 基本 架构 模式 是 master-push。 非 常 类 似 于 MySQL 的 主 从 复制 ， 一 个 Master 集 群 可 以 向 任意 数目 的 Slave 集 群 进行 复制 ， 同 时 每 个 RegionServer 会 参与 复制 它 本 身 所 对 应 的 一 系列 修改 。 


备份 过 程 是 异步 进行 的 ， 这 意味 着 参与 的 集群 可 能 在 地 理 位 置 上 相隔 甚 远 ， 它 们 之 间 的 连接 在 某 段 时 间 内 可 以 是 断 开 的 ， 插 入 Master 集 群 中 的 那些 行 ， 同 一 时 间 在 slave 集 群 上 不 一 定 是 可 用 的 (最终 
一 致 性 ) 。 


每 个 RegionServer 的 HLog 是 备份 的 基础 ， 同 时 只 要 这 些 日 志 需 要 复制 到 其 他 的 Slave 集 群 上 ， 它 们 就 需要 保存 在 HDFS 上 。 每 个 RegionServer 会 从 它们 需要 复制 的 最 老 的 日 志 开 始 读 取 ， 同 时 为 简化 故 
障 恢复 会 将 当前 读 取 位 置 保存 到 ZooKeeper 上 。 对 于 不 同 的 Slave 集 群 来 说 ， 该 位 置 可 能 是 不 同 的 。 参 与 备份 各 集群 大 小 可 能 不 是 对 称 的 ， 同 时 Master 集 群 会 通过 随机 化 来 尽量 保证 在 Slave 集 群 上 的 备份 工 
作 流 的 平衡 。 图 9-9 是 备份 机 制 的 架构 示意 图 。 


Master Cluster 


Inbase/replication/... 
-..."ts1 -> offset 
"152 
"153 
.ts4 


图 9-9 备份 架构 图 


9.602 故障 恢复 


HBase 借 助 ZooKeeper 的 高 可 用 性 和 语义 来 管理 队列 的 传输 。Master 集 群 的 所 有 Region-Server 相 互 之 间 都 有 一 个 观察 者 ， 当 其 中 一 个 死 掉 时 ， 其 他 的 都 能 得 到 通知 。 如 果 某 个 死 掉 后 ， 它 们 就 会 通过 
在 死 掉 的 RegionServer 的 znode 内 创建 一 个 称 为 lock 的 znode 来 进行 竞争 性 选举 。 最 终 成 功 创建 了 该 znode 的 RegionServer 会 将 所 有 的 队列 传输 到 它 自己 的 znode 下 ， 当 传输 完成 后 就 会 删 掉 上 昌 的 znode。 
恢复 后 的 队列 的 znode 将 会 在 死 掉 的 服务 器 的 名 称 后 加 上 Slave 集 群 的 id 来 进行 命名 。 


完成 之 后 ，Master 集 群 的 RegionSserver 会 对 每 个 复制 出 的 队列 创建 一 个 新 的 source 线程 。 它 们 中 的 每 一 个 都 会 遵守 read/filter/ship 模 式 。 主 要 的 区 别 是 这 些 队列 不 会 再 有 新 数据 ， 同 时 意味 着 当 读 取 
者 到 达 最 后 一 个 日 志 的 末尾 时 ， 队 列 对 应 的 znode 就 可 以 被 删除 了 ， 同 时 Master 集 群 的 RegionServer 将 会 关闭 那个 备份 Source 线程 。 


比如 ， 考 虑 一 个 具有 3 个 RegionServer 的 Master 集 群 ， 该 集群 会 向 一 个 id 为 2 的 单个 Slave 集 群 进行 复制 。 下 面 的 层次 结构 代表 了 znode 在 某 个 时 间 点 上 的 分 布 。 我 们 可 以 看 到 该 Regionserver 的 znode 
都 包含 一 个 具有 一 个 队列 的 peers znode。 这 些 队 列 的 znode 在 HDFS 上 的 实际 文件 名 称 具有 这 样 的 形式 “address，port，timestamp”。 


/hbase/replication/rs/ 
1.1.1.1, 60020, 123456780/ 
peers/ 
2 


1.1.1.1, 60020.1234 (Contains a position) 
1.1.1.1, 60020.1265 
1.1.1.2, 60020, 123456790/ 
peers/ 


1.1.1.2, 60020.1214 (Contains a position) 
1.1.1.2, 60020.1248 
1.1.1.2, 60020.1312 

1.1.1.3, 60020, 123456630/ 


1.1.1.3, 60020.1280 (Contains a position) 


现在 我 们 假设 1.1.1.2 丢 失 了 它 的 ZooKeeper 会 话 ， 幸 存 者 将 会 竞争 以 创建 一 个 lock， 最 后 1.1.1.3 获 得 了 该 锁 。 然 后 它 开 始 将 所 有 队列 传输 到 它 本 地 的 peers znode， 同 时 在 原 有 的 名 称 上 填 上 死 掉 的 服 
务 器 的 名 称 。 在 1.1.1.3 清 理 老 的 znodes 之 前 ， 节 点 分 布 如 下 : 


/hbase/replication/rs/ 
1.1.1.1, 60020, 123456780/ 
peers/ 


1.1.1.1, 60020.1234 (Contains a position) 
1.1.1.1, 60020.1265 
1.1.1.2, 60020, 123456790/ 


1.1.1.2, 60020.1214 (Contains a position) 
1.1.1.2, 60020.1248 

1.1.1.2, 60020.1312 

0020, 123456630/ 


3, 60020.1280 (Contains a position) 
2, 60020, 123456790/ 

.2, 60020.1214 (Contains a position) 
2, 60020.1248 

2, 60020.1312 


一 段 时 间 后 ， 但 在 1.1.1.3 结 束 来 自 1.1.1.2 的 最 后 一 个 HLog 的 复制 之 前 ,我 们 假设 它 也 死 掉 了 ， 最 后 一 个 RegionServer 会 尝试 锁 住 1.1.1.3 的 znode 然 后 开始 传输 所 有 的 队列 。 新 的 节点 分 布 如 下 : 


/hbase/replication/rs/ 
1.1.1.1, 60020, 123456780/ 


peers/ 
£ 
1.1.1.1, 60020.1378 (Contains a position) 
2-1.1.1.3, 60020, 123456630/ 
1.1.1.3, 60020.1325 (Contains a position) 
1.1.1.3, 60020.1401 
2-1.1.1.2, 60020, 123456790-1.1.1.3, 60020, 123456630/ 
1.1.1.2, 60020.1312 (Contains a position) 
1.1.1.3, 60020, 123456630/ 
lock 
peers/ 
/ 
1.1.1.3, 60020.1325 (Contains a position) 
1.1.1.3, 60020.1401 
2-1.1.1.2, 60020, 123456790/ 
1.1.1.2, 60020.1312 (Contains a position) 


备份 机 制 目前 还 是 一 个 处 于 实验 阶段 的 特性 ， 在 将 它 应 用 到 工业 环境 时 需要 仔细 评估 。 


9.7 ”数据 压缩 


20 世 纪 40 年 代 未 期 到 50 年 代 早期 克 劳 德 .香农 发 表 了 关于 压缩 理论 的 基础 性 论文 ， 并 奠定 了 压缩 理论 的 基础 。 对 于 HBase 这 样 一 种 数据 库 来 讲 ， 自 然 也 会 使 用 相应 的 压缩 算法 ， 在 接 下 来 的 内 容 中 将 着 有 
讲解 HBase 支 持 的 压缩 算法 以 及 各 类 算法 的 比较 。 


Ti 


92.1 “支持 的 压缩 算法 


1.LZO 


LZO 是 致力 于 解压 速度 的 一 种 数据 压缩 算法 ，LZO 是 Lempel-Ziv-Oberhumer 的 缩写 。 这 个 算法 是 无 损 算法 ， 参 考 实现 程序 是 线程 安全 的 。 实 现 它 的 一 个 自由 软件 工具 是 lzop。 最 初 的 库 是 用 ANSI C 编 
写 且 遵从 GNU 通 用 公共 许可 证 发 布 的 。 现 在 LZO 有 用 于 Perl|、Python 以 及 Java 的 各 种 版 本 。 代 码 版 权 的 所 有 者 是 Markus F.X.J.Oberhumer, 


遗憾 的 是 ，HBase 基 于 Apache 协 议 ,而 LZO 基 于 GPL 协 议 。HBase 不 能 自 带 LZO， 因 此 LZO 需 要 预 安装 。 这 里 不 再 展开 讲解 如 何 预 安装 LZO， 如 果 读 者 有 兴趣 可 以 尝试 在 互联 网 上 搜索 该 方面 的 内 容 ， 
相关 内 容 非常 多 。 


2.GZIP 


GZIP 是 GNUzip 的 缩写 ， 它 是 一 个 GNU 自 由 软件 的 文件 压缩 程序 。 它 是 Jean-loupGailly 和 MarkAdler 一 起 开发 的 。 第 一 次 公开 发 布 是 1992 年 10 月 31 日 发 布 的 版 本 0.1，1993 年 2 月 发 布 了 版 本 1.0。 现 今 
已 经 成 为 Internet 上 使 用 非常 普遍 的 一 种 数据 压缩 格式 ， 或 者 说 一 种 文件 格式 。 


相对 于 LZO，GZIP 的 压缩 率 更 高 但 是 速度 更 慢 。 在 某 些 特定 情况 下 ， 压 缩 率 是 优先 考量 的 因素 。Java 会 使 用 Java 自 带 的 GZIP， 由 于 其 先天 优势 ， 该 压缩 方式 也 是 HBase 最 早 支持 的 压缩 算法 。 


3.SNAPPY 


SNAPPY 是 一 个 用 来 压缩 和 解压 缩 的 C+ + 开发 包 ， 其 目标 不 是 最 大 限度 压缩 ， 而 且 不 兼容 其 他 压缩 格式 ， 其 旨 在 提供 高 速 压缩 速度 和 合理 的 压缩 率 。SNAPPY 比 ZLIB 更 快 ， 但 文件 相对 要 大 
20%~100%。 在 64 位 模式 的 Core i7 处 理 器 上 ， 可 达 每 秒 250~500MB 的 压缩 速度 。 该 算法 也 需要 预 安装 。 


9.7.2 ”使 用 配置 


首先 ， 确 认 已 经 安装 相应 的 压缩 算法 库 。 然 后 在 创建 表 的 时 候 就 可 以 直接 使 用 了 。 使 用 方式 非常 简单 ， 代 码 如 下 : 


create 'tl', ( NAME => 'cfl', COMPRESSION => 'SNAPPY' } 


如 果 之 前 创建 表 的 时 候 没有 指定 压缩 算法 ， 默 认 是 不 进行 压缩 的 ， 默 认 值 是 NONE。 上 面 的 例子 中 压缩 算法 是 SNAPPY， 指 定 压缩 的 列 族 描述 符 是 COMPRESSION。 如 果 想 对 未 指定 压缩 的 、 已 经 存在 


的 表 重 新 设置 压缩 ， 可 以 使 用 Alter 命 令 操作 。 首 先 下 线 表 ， 然 后 修改 压缩 算法 ， 最 后 上 线 表 。 具 体操 作 如 下 : 


hbase (main) : 004: 0> describe 'test' 
DESCRIPTION ENABLED 


'test', (NAME => 'cfl', DATA BLOCK ENCODING => 'NONE', BLOOMFILTER => 'NONE', REPL false 
ICATION SCOPE => '0', VERSIONS => '3', COMPRESSION => 'NONE'. MIN VERSIONS => '0', 

TTL => '2147483647', KEEP DELETED CELLS => 'false', BLOCKSIZE —» 765536', IN MEMO 

RY => 'false', ENCODE ON DISK => 'true', BLOCKCACHE => 'true') 


1 row (s) in 0.0650 seconds 

hbase (main) : 005: 0> disable 'test' 

0 row (s) in 0.0890 seconds 

hbase (main) : 006: 0» alter 'test', (NAME-»'cfl', COMPRESSION-»'SNAPPY'] 

Updating all regions with the new schemahttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
4/4 regions updated. T 

Done. 

0 row (s) in 1.2720 seconds 

hbase (main) : 007: 0> describe 'test' 

DESCRIPTION ENABLED 


'test', {NAME => 'cfl', DATA BLOCK ENCODING => 'NONE', BLOOMFILTER => 'NONE', REPL false 
ICATION_SCOPE => '0', VERSIONS => '3', COMPRESSION => 'SNAPPY', MIN VERSIONS => '0 

', TTL => '2147483647', KEEP DELETED CELLS => 'false', BLOCKSIZE => '65536', IN ME 

MORY => 'false', ENCODE ON DISK => 'true', BLOCKCACHE => 'true'] 


1 row (s) in 0.0430 seconds 
hbase (main) : 008: 0> enable 'test' 
0 row (s) in 1.1450 seconds 


98 ”本 章 小 结 


本 章 主 要 讲解 了 HBase 的 一 些 核心 概念 ， 包 含 核心 存储 结构 、 底 层 持久 化 的 实现 、 日 志 结构 和 回收 机 制 、 写 入 和 查询 流程 、 数 据 备份 ， 以 及 数据 压缩 等 。 这 些 都 是 核心 、 理 论 性 比较 强 的 知识 点 ， 掌 握 


这 些 内 容 有 助 于 读者 从 理论 层面 加 深 对 HBase 特 性 的 深层 次 理解 ， 有 助 于 读者 理解 分 布 式 实时 处 理 系统 的 理论 基础 。 


本 章 的 很 多 内 容 结合 底层 源 代码 实现 进行 讲解 ， 笔 者 始终 坚信 “ 源 代码 最 说 明 问 题 ”， 任 何 的 官方 和 第 三 方 的 资料 和 实验 ， 只 具备 一 定 的 参考 价值 ， 真 正 能 从 源 代码 角度 阐述 问题 ， 才 是 最 客观 、 最 直 


接 的 方法 。 所 以 ， 读 者 在 阅读 的 过 程 也 要 注意 “ 尽 信 书 不 如 无 书 ”， 坚 持 了 解 每 个 开源 项 目的 代码 逻辑 实现 才 是 王道 。 


第 10 章 ”HBase 高 级 特性 


在 实际 应 用 中 都 是 非常 重要 的 。 


点 ， 


10. 


范围 


本 章 将 围绕 HBase 的 高 级 特性 展开 讲解 。HBase 高 级 特性 涵盖 的 内 容 非常 广泛 ， 涉 及 的 知识 点 很 多 ， 不 仅 有 高 级 API 的 使 F 


有 表 设 计 、 集 群 属性 、 数 据 导入 等 相关 的 概念 ， 这 里 介绍 的 一 些 知识 点 


al 


前 面 的 章节 从 基本 概念 、 安 装 部 署 、 简 单 使 用 以 及 核心 概念 等 方面 作 了 详细 讲解 ， 讲 解 这 些 的 最 终 目的 是 让 HBase 在 企业 使 用 中 真正 “落地 ”。 本 章 将 要 介绍 的 内 容 全 部 都 是 企业 使 用 中 最 常用 的 知识 
例如 过 滤器 、 计 数 器 、 协 处 理 器 、 表 设计 、 二 级 索引 等 ， 这 些 知 识 点 的 熟练 使 用 就 代表 了 HBase “落地 ”成 功 。 


这 些 知识 点 之 间 联 系 不 是 非常 紧密 ， 读 者 可 以 有 选择 地 阅读 自己 感 兴趣 的 知识 点 。 
1 过 滤器 


前 面 的 章节 介绍 了 HBase 的 基本 AP1， 包 括 增 、 删 、 查 、 改 等 。 增 、 删 都 是 相对 简单 的 操作 ， 与 传统 的 RDBM SS 相 比 ， 这 里 的 查询 操作 略 显 若 白 ， 只 能 根据 特定 的 行 键 进行 查询 (Get) 或 者 根据 行 键 的 
来 查询 (Scan) 。HBase 不 仅 提供 了 这 些 简单 的 查询 ， 而 且 提 供 了 更 加 高 级 的 过 滤器 (Filter) 来 查询 ， 下 面 的 内 容 将 详细 介绍 过 滤器 的 结构 和 使 用 。 


10.1.1. ”过 滤器 的 两 类 参数 


过 滤器 可 以 根据 列 族 、 列 、 版 本 等 更 多 的 条 件 来 对 数据 进行 过 滤 ， 基 于 HBase 本 身 提 供 的 三 维 有 序 (主键 、 列 、 版 本 有 序 ) ， 这 些 过 滤器 可 以 高 效 地 完成 查询 过 滤 的 任务 ， 带 有 过 滤器 条 件 的 RPC 查 询 


请 求 会 把 过 滤器 分 发 到 各 个 RegionServer (这 是 一 个 服务 器 端 过 滤器 ) ， 这 样 也 可 以 降低 网 络 传输 的 压力 。 


使 用 过 滤器 至 少 需要 两 类 参数 : 一 类 是 抽象 的 操作 符 ，HBase 提 供 了 枚 举 类 型 的 变量 来 表示 这 些 抽象 的 操作 符 : 


: LESS 


: LESS OR EQUAL 


- EQUAL 


- NOT EQUAL 


: GREATER. OR EQUAL 


: GREATER 


: NO OP 


另 一 类 是 比较 器 (Comparator) ， 代 表 具 体 的 比较 逻辑 ， 例 如 字 节 级 的 比较 、 字 符 串 级 的 比较 等 。 比 较 器 的 详细 内 容 在 下 面 的 内 容 中 会 详细 介绍 。 有 了 这 两 类 参数 ， 就 可 以 清晰 地 定义 筛选 条 件 ， 从 


一 般 来 说 调整 表 设计 就 可 以 优化 访问 模式 ， 有 时 你 已 经 把 表 设 计 调 整 得 尽 可 能 好 ， 为 不 同 访问 模式 优化 得 尽 可 能 好 ， 如 果 仍 然 需要 减少 返回 客户 端的 数据 ， 就 是 过 滤器 的 应 用 场景 了 。 有 时 候 过 滤器 也 


称 为 下 推 判断 器 (push-down predicates) ， 支 持 把 数据 过 滤 标 准 从 客户 端 下 推 到 服务 器 。 这 些 过 滤 逻 辑 在 读 操作 时 使 用 ， 对 返回 客户 端的 数据 有 影响 。 这 样 通过 减少 网 络 传输 的 数据 来 节省 网 络 IO。 但 


是 数据 仍然 需要 从 硬盘 读 进 RegionServer， 过 滤器 在 RegionServer 里 发 挥 作 用 。 
做 法 开销 很 大 。 


BH 


为 HBase 表 里 存储 大 量 数据 ， 网 络 1O 的 节省 是 有 有 


下 面 讲解 的 内 容 ， 从 表 逻 辑 结构 层面 ， 将 过 滤器 划分 为 不 同 的 类 别 : 比较 器 、 列 值 过 滤器 、 键 值 元 数据 过 滤器 、 行 键 过 滤器 、 功 能 过 滤器 等 ， 分 别 从 介绍 、 使 


10.1.2 ”比较 器 


比较 器 作为 过 滤器 的 核心 组 成 之 一 ， 用 于 处 理 具 体 的 比较 逻辑 ， 例 如 字 节 级 的 比较 、 字 符 串 级 的 比较 等 。 


1.RegexStringComparator 


RegexStringComparator 支 持 正则 表达 式 的 值 比较 ， 下 面 是 使 用 的 示例 : 


RegexStringComparator comp = new RegexStringComparator ("my.") ; // 以 "my' 开 头 的 字符 串 
SingleColumnValueFilter filter = new SingleColumnValueFilter ( 

cf, 

column, 

CompareOp.EQUAL, 

comp 

J: 
scan.setFilter (filter) ; 


要 意义 的 ， 并 且 先 读 出 全 部 数据 送 到 客户 端 再 过 滤 出 有 用 的 数据 ， 这 种 


、 示 例 等 不 同 角度 阐述 。 


Oze 此 处 正则 表达 式 的 规则 与 Java 正 则 表达 式 相 同 ， 具 体内 容 请 参考 Oracle Java Doc: http://docs.oracle.com/javase/6/docs/api/java/util/regex/Pattern.html。 


2.SubstringComparator 


SubstringComparator 用 于 检测 一 个 子 串 是 否 存在 于 值 中 ， 不 区 分 大 小 写 ， 具 体 使 用 示例 如 下 : 


SubstringComparator comp = new SubstringComparator ("y val"); // 查找 包含 'y val' 的 字符 串 
SingleColumnValueFilter filter = new SingleColumnValueFilter ( 

cf, 

column, 

CompareOp EQUAL, 

comp 

Fa 


scan.setFilter (filter) ; 


3.BinaryPrefixComparator 


BinaryPrefixComparator 是 前 缀 二 进 制 比较 器 。 与 二 进 制 比较 器 不 同 的 是 ， 只 比较 前 缀 是 否 相同 。 具 体 使 用 示例 如 下 : 


filter (true, CompareFilter.CompareOp.EQUAL, 
new BinaryPrefixComparator (Bytes.toBytes ("val-5") ) ); 


4.BinaryComparator 


BinaryComparator 是 二 进 制 比较 器 ， 用 于 按照 字典 顺序 比较 Byte 数 据 值 ， 示 例如 下 : 


Filter filterl = new ValueFilter (CompareFilter.CompareOp.NOT EQUAL, 
new BinaryComparator (Bytes.toBytes ("val-0") ) ) ; 

Scan scan - new Scan () ; 

scan.setFilter (filterl) ; 

ResultScanner scannerl = table.getScanner (scan) ; 


for (Result result : scannerl) ( 
for (KeyValue kv : result.raw O ) { 
System.out.println ("KV: " + kv ", Value: "+ 


Bytes.toString (kv.getValue () ) ) ; 
} 


scannerl.close O ; 


10.1.3” 列 值 过 滤器 


1.SingleColumnValueFilter 


SingleColumnValueFilter 用 于 测试 列 值 相等 (CompareOp.EQUAL) 、 不 等 (CompareOp.NOT EQUAL) 、 范 围 (e.g., CompareOp.GREATER) 等 情况 。 下 


等 的 查询 的 部 分 代码 : 


回 


是 检查 列 值 和 字符 串 'my value 


SingleColumnValueFilter filter = new SingleColumnValueFilter ( 
cf, 
column, 
CompareOp EQUAL, 
Bytes.toBytes ("my value") 
3s 


scan.setFilter (filter) ; 


2.SingleColumnValueExcludeFilter 


SingleColumnValueExcludeFilter 用 于 单列 值 过 滤 ， 但 并 不 查询 出 该 列 的 值 。 示 例 代码 如 下 : 


Filter excludefilter = new SingleColumnValueExcludeFilter ( 
Bytes.toBytes ("info") , 
Bytes.toBytes ("age") , 
CompareOp .EQUAL, 
Bytes.toBytes ("24") ) ; 
scan.setFilter (filter) ; 


10.1.4” 键 值 元 数据 过 滤器 


由 于 HBase 采 用 “ 键 值 对 ”保存 内 部 数据 ， 键 值 元 数据 过 滤器 评估 一 行 的 “ 键 ” 是 否 存在 (如 ColumnFamily:Column qualifiers) ， 对 应 前 节 所 述 值 的 情况 。 


1.FamilyFilter 


FamilyFilter 用 于 过 滤 列 族 ， 但 通常 会 在 使 用 Scan 过 程 中 通过 设 定 某 些 列 族 来 实现 该 功能 ， 而 不 是 直接 使 用 FamilyFilter 过 滤器 。 下 面 是 使 用 FamilyFilter 的 示例 : 


Filter filter = new FamilyFilter (CompareFilter.CompareOp.LESS, 
new BinaryComparator (Bytes.toBytes ("cf3") ) ); 
Scan scan = new Scan () ; 
scan.setFilter (filter) ; 
ResultScanner scanner - table.getScanner (scan) ; 
for (Result result : scanner) { 
System.out.println (result) ; 
l 


scanner.close O ; 


2.QualifierFilter 


QualifierFilter 用 于 列 名 (Qualifier) 过 滤 ， 有 具体 使 用 如 下 : 


Filter filter = new QualifierFilter (CompareFilter.CompareOp.LESS OR EQUAL, 
new BinaryComparator (Bytes.toBytes ("Cl") ) ); dri 
Scan scan - new Scan () ; 
scan.setFilter (filter) ; 
ResultScanner scanner = table.getScanner (scan) ; 
for (Result result : scanner) ( 
System.out.println (result) ; 
} 


scanner.close () ; 


3.ColumnPrefixFilter 


ColumnPrefixFilter 用 于 列 名 (Qualifier) 前 缀 过 滤 ， 即 包含 某 个 前 缀 的 所 有 列 名 。 下 面 是 查找 以 “abc” 为 前 缀 的 所 有 列 名 的 示例 : 


HTableInterface t = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/...: 
byte[] row = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/ . . . 

byte[] family = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/...: 
byte[] prefix = Bytes.toBytes ("abc") ; ni 

Scan scan - new Scan (row, row); // 限制 为 一 行 

scan.addFamily (family) ; // 限制 一 个 列 族 

Filter f = new ColumnPrefixFilter (prefix) ; 

scan.setFilter (f) ; 


scan.setBatch (10) ; // 设 置 批量 值 ， 该 值 作用 于 列 
ResultScanner rs = t.getScanner (scan) ; 
for (Result r = rs.next (); r ! = null; r= rs.next ()) { 


for (KeyValue kv : r.raw O) { 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
j 


rs.close () ; 


4.MultipleColumnPrefixFilter 


MultipleColumnPrefixFilter 与 ColumnPrefixFilter 行 为 类 似 ， 但 可 以 指定 多 个 前 级 。 下 面 的 示例 中 指定 了 “abc” 和 “xyz” 两 个 前 缀 : 


HTableInterface 七 = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/...: 
byte[] row = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/ . . .; 
byte[] family = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/...: 
byte[][] prefixes = new byte[][] (Bytes.toBytes ("abc"), Bytes.toBytes ("xyz") ) ` 
Scan scan = new Scan (row, row); 
scan.addFamily (family) ; 
Filter f = new MultipleColumnPrefixFilter (prefixes) ; 
scan.setFilter (f) ; 
scan.setBatch (10) ; 
ResultScanner rs = t.getScanner (scan) ; 
for (Result r = rs.next O ; r !- null; r= rs.next O ) ( 

for (KeyValue kv : r.raw O) { 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
l 


rs.close () ; 


5.ColumnRangeFilter 


ColumnRangeFilter 过 滤器 可 以 进行 高 效 列 名 内 部 扫描 。HBase 0.92 版 本 引入 该 功能 。 下 面 的 示例 扫描 所 有 在 “b-100” 和 “d-999” 之 间 (AKE) 的 列 : 


HTableInterface t = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/...: 
byte[] row = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/ . . . 
byte[] family = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/...; 
byte[] startColumn = Bytes.toBytes ("b-100") ; 
byte[] endColumn = Bytes.toBytes ("d-999") ; 
Scan scan = new Scan (row, row) ; 
scan.addFamily (family) ; 
Filter f = new ColumnRangeFilter (startColumn, true, endColumn, true); 
scan.setFilter (f) ; 
scan.setBatch (10) ; 
ResultScanner rs = t.getScanner (scan); 
for (Result r = rs.next O ; r !- null; r= rs.next ()) { 

for (KeyValue kv : r.raw O) ( 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
} 


rs.close O ; 


6.DependentColumnFilter 


DependentColumnFilter 过 滤器 有 两 个 参数 : Column Family 和 Qualifier， 该 过 滤器 尝试 找到 该 列 所 在 的 每 一 行 ， 并 返回 该 行 具有 相同 时 间 戳 的 全 部 键 值 对 。 如 果 某 一 行 不 包含 指定 的 列 ， 则 不 返回 


行 的 任何 键 值 对 。 该 过 滤器 还 有 一 个 可 选 的 布尔 参数 一 一 如 果 为 true， 从 


查 ， 如 果 找到 从 属 的 列 ， 其 值 还 必须 通过 值 检查 ， 


然后 就 是 必须 考虑 时 间 戳 。 使 用 示 俱 


属 的 列 不 返回 


。 该 过 滤器 还 有 两 个 可 选 的 参 


如 下 : 


个 比较 操作 符 和 一 个 值 比较 器 ,用 于 Column Family 和 Qualifier 的 进一步 检 


该 


Filter filter = new DependentColumnFilter (Bytes.toBytes ("cfl"), 
Bytes.toBytes ("c5") , drop); 


Scan scan - new Scan () ; 
scan.setFilter (filter) ; 
ResultScanner scanner - 


System.out.println ("KV: 


table.getScanner (scan) ; 
for (Result result : scanner) { 
for (KeyValue kv :  result.raw () ) 


"kv" 


Bytes.toString (kv.getValue () ) ) ; 


} 
} 


scanner.close () ; 


{ 


Value: 


+ 


10.1.5 “ 行 键 过 滤器 


1.RowFilter 


一 般 来 讲 ， 执 行 Scan 时 使 


startRow/stopRow 方 式 比较 好 ， 而 RowFilter 过 滤器 也 可 以 完成 对 某 一 行 的 过 滤 。 


示例 如 下 : 


Scan scan = new Scan () ; 
scan.addColumn (Bytes.toBytes ("cfl"), 


Bytes.toBytes ("c0") ) ; 


Filter filter = new RowFilter (CompareFilter.CompareOp.LESS OR EQUAL, 


new BinaryComparator (Bytes.toBytes ("row-1") ) ) ; 

scan.setFilter (filter) ; 

ResultScanner scannerl - table.getScanner (scan) ; 

for (Result res : scannerl) { 
System.out.println (res) ; 

} 


scannerl.close O ; 


2.RandomRowFilter 


RandomRowrFilter 是 随机 选择 一 行 的 过 滤器 。 下 面 代码 是 


构造 函数 ， 参 数 chance 是 一 个 浮 点 值 ， 介 于 0.0 和 1.0 之 间 。 


RandomRowFilter (float chance) //chance 是 处 于 [0.0， 1 


.0] 的 浮 点 值 


10.1.6 ”功能 过 滤器 


1.PageFilter 


PageFilter 用 于 按 行 分 页 ， 下 面 是 使 用 示例 : 


Filter filter = new PageFilter (15) ; // 构 造 过 滤器 
int totalRows = 0; 
byte[] lastRow = null; 
while (true) { 
Scan scan = new Scan () ; 
scan.setFilter (filter) ; 
if (lastRow ! = null) { 
byte[] startRow = Bytes.add (lastRow, 
System.out.println ("start row: "+ 
Bytes.toStringBinary (startRow) ) ; 
scan.setStartRow (startRow) ; 


} 
ResultScanner scanner = table.getScanner (scan) ; 
int localRows = 0; 
Result result; 
while ( (result = scanner.next () ) ! = null) { 
System.out.println (localRows++ + ": "+ result 
totalRows++; 
lastRow = result.getRow O) ; 
} 
scanner.close () ; 
if (localRows == 0) break; 
} 


System.out.println ("total rows: " + totalRows) ; 


POSTFIX) ; 


24 


2.FirstKeyOnlyFilter 


FirstKeyOnlyFilter 只 查 每 个 行 键 的 第 一 个 键 值 对 ， 


3.KeyOnlyFilter 
KeyOnlyFilter 只 查 有 “ 键 ” 元 数据 信息 ， 


4.InclusiveStopFilter 


常规 Scan 包含 start-row 但 不 包含 stop-row， 如 果 使 


5.ColumnPaginationFilter 


ColumnPaginationFilter 是 按 列 分 页 过 滤器 ， 针 对 列 数 很 多 的 情况 使 用 。 


10.17 Thrift 使 用 过 滤器 


于 在 统计 计数 的 时 候 提 高 效率 。 


不 显示 值 ， 可 以 提升 扫描 的 效率 。 


InclusiveStopFilter 过 滤器 可 以 包含 stop-row。 


如 果 使 


Thrift 方 式 访问 HBase， 过 滤器 的 使 有 


1. 通 用 过 滤 字 符 串 语法 


简单 语法 : 


和 纯 Java 方 式 的 区 别 很 大 ， 本 节 将 着 重 介绍 如 何在 Thrift 中 使 有 


"FilterName (argument, argument, http://www.hzcourse.com/resource/readBook? 


path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/.., argument) " 


开始 必须 指定 过 滤器 名 称 ， 过 滤器 输入 参数 使 


逗号 分 隔 。 


如 果 参 数 表 示 字 符 串 ， 应 该 


单 引号 引起 。 如 果 参 数 表示 布尔 类 型 ， 使 


必须 是 一 个 单词 ， 不 能 出 现 空格 、 单 引号 和 国 括 号。 参数 可 以 是 任意 ASCII 字 符 。 


2. 复 合 关系 操作 符 

复合 关系 操作 符 包含 四 类 关系 型 操作 符 ， 用 于 复合 类 型 过 滤器 : 
- AND 

- OR 


DSKIP: 跳 过 。 没 满足 过 滤 条 件 ， 跳 过 整 行 。 


“WHILE: 对 于 一 个 特定 的 行 ， 会 继续 输出 键 值 ， 直 到 一 个 键 值 对 达到 使 过 滤 条 件 失败 时 停止。 


HBase。 该 方式 从 HBase 0.92 版 本 开始 引入 。 


整数 或 者 比较 字符 <、>、! = 等 ,不 要 使 


引号 引起 。 过 滤器 名 称 


复合 关系 操作 符 的 使 用 如 下 : 


" (Filterl AND Filter2) OR (Filter3 AND Filter4) " 


这 四 个 操作 符 的 优先 级 : 圆 括号 拥有 最 高 优先 级 ，SKIP 和 WHILE 其 次 ，AND 次 之 ，OR 优 先 级 最 低 。 下 面 是 代表 优先 级 的 示例 : 


"Filterl AND Filter2 OR Filter3" =>" (Filterl AND Filter2) OR Filter3" 
"Filterl AND SKIP Filter2 OR Filter3" =>" (Filterl AND (SKIP Filter2) ) OR Filter3" 


3. 比 较 运 算 符 

比较 运算 符 包 括 以 下 几 种 : 

< LESS (<) 

- LESS OR EQUAL (<=) 

- EQUAL (=) 

- NOT EQUAL (! =) 

: GREATER OR EQUAL (>=) 
: GREATER (>) 


: NO OP (no operation) 


客户 端 应 该 使 用 (<，<=，=，! =，>，>=) 来 表达 比较 操作 。 
4. 比 较 器 
比较 器 包括 以 下 几 种 : 


* BinaryComparator 


* BinaryPrefixComparator 


* RegexStringComparator 


* SubStringComparator 


前 面 详细 阐述 过 其 作用 ， 这 里 不 再 重复 讲解 。 


5. 复 合 操作 符 示例 


本 节 将 通过 三 个 示例 介绍 在 Thrift 方 式 中 过 滤器 如 何 使 用 复合 关系 操作 符 。 


示例 1: 


"PrefixFilter ('Row') AND PageFilter (1) AND FirstKeyOnlyFilter () " 


以 上 代码 将 返回 同时 具备 以 下 条 件 的 结果 : 
1) H “Row” 前缀 的 行 ; 

2) 键 值 对 是 表 的 第 一 行 ; 

3) 键 值 对 必须 是 该 行 第 一 个 值 。 


示例 2: 


" (RowFilter (=, 'binary: Row 1') AND TimeStampsFilter (74689, 89734) ) OR 
ColumnRangeFilter ('abc', true, 'xyz', false))" 


以 上 代码 将 返回 同时 具备 以 下 条 件 的 结果 : 
1) 行 键 是 “Row 1" ; 


2) 时 间 戳 是 74689 或 者 89734。 


列 名 (字典 顺序 ) 在 abc (包含 ) 和 xyz (不 包含 ) 之 间 。 


示例 3: 


"SKIP ValueFilter (0) " 


如 果 值 不 是 0， 以 上 代码 将 跳 过 整 行 。 
6 .简单 示 例 


(1) KeyOnlyFilter 


语法 : KeyOnlyFilter () 


示例 如 下 : 


"KeyOnlyFilter O " 


(2) FirstKeyOnlyFilter 
语法 : FirstKeyOnlyFilter () 


示例 如 下 : 


"FirstKeyOnlyFilter O " 


(3) PrefixFilter 
语法 : PrefixFilter ('«row prefix») 


示例 如 下 : 


"PrefixFilter ('Row') " 


(4) ColumnPrefixFilter 
语法 : ColumnPrefixFilter ('«column prefix») 


示例 如 下 : 


"ColumnPrefixFilter ('Col') " 


(5) MultipleColumnPrefixFilter 


语法 : MultipleColumnPrefixFilter ('«column prefix»', '«column prefix»', .., '«column prefix») 
示例 如 下 : 
"MultipleColumnPrefixFilter ('Coll', 'Col2') " 


(6) ColumnCountGetFilter 
语法 : ColumnCountGetFilter ('«limit»") 


示例 如 下 : 


"ColumnCountGetFilter (4) " 


(7) PageFilter 
语法 : PageFilter ('«page size») 


示例 如 下 : 


"PageFilter (2) " 


(8) ColumnPaginationFilter 
语法 : ColumnPaginationFilter ('«limit»', '«offest»") 


示例 如 下 : 


"ColumnPaginationFilter (3, 5)" 


(9) InclusiveStopFilter 
语法 : InclusiveStopFilter ('«stop row key») 


示例 如 下 : 


"InclusiveStopFilter ('Row2') " 


(10) TimeStampsFilter 


语法 : TimeStampsFilter («timestamp», «timestamp», http://www.hzcourse.com/resource/readBook? 


path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/.., «timestamp» ) 


示例 如 下 : 


"TimeStampsFilter (5985489, 48895495， 58489845945) " 


(11) RowFilter 


语法 : RowFilter (<compareOp>, '<row_comparator>') 


示例 如 下 : 


"RowFilter (<=, 'xyz')" 


(12) Family Filter 
语法 : QualifierFilter (<compareOp>, '<qualifier_comparator>') 


示例 如 下 : 


"QualifierFilter (=, 'Column1') " 


(13) QualifierFilter 
语法 : QualifierFilter (<compareOp>,，'<qualifier comparator>') 


示例 : 


"QualifierFilter (=, 'Column1')" 


(14) ValueFilter 
语法 : ValueFilter (<compareOp>, '<value_comparator>') 


示例 如 下 : 


"ValueFilter (! =, 'Value') " 


(15) DependentColumnFilter 


语法 1: DependentColumnFilter ('«family»', '«qualifier»', «boolean», «compare operator», '«value comparator») 


语法 2: DependentColumnFilter ('«family»', '«qualifier»', «boolean») 
语法 3: DependentColumnFilter ('«family»', '«qualifier»") 


DependentColumnFilter 比 较 器 有 三 种 语法 ， 下 面 的 三 个 示例 分 别 对 应 上 面 的 三 种 语法 。 


示例 1: 

"DependentColumnFilter ('conf', 'blacklist', false, >=, 'zebra')" 
示例 2: 

"DependentColumnFilter ('conf', 'blacklist', true)" 

示例 3: 

"DependentColumnFilter ('conf', "blacklist') " 


(16) SingleColumnValueFilter 


语法 1: SingleColumnValueFilter ( «compare operator», '«comparator»', '«family»', '«qualifier»' 


, «filterifColumnMissing boolean», «latest version boolean») 


语法 2: SingleColumnValueFilter ( «compare operator», '«comparator»', '«family»', "'«qualifier»' ) 
示例 1: 

"SingleColumnValueFilter (<=, 'abc', 'FamilyA', 'Columnl', true, false)" 

示例 2: 

"SingleColumnValueFilter (<=, 'abc', 'FamilyA', 'Columnl') " 


(17) SingleColumnValueExcludeFilter 


语法 1: SingleColumnValueExcludeFilter ( «compare operator», '«comparator»', '«family»', '«qualifier»', «latest version boolean», «filterffColumnMissing boolean») 


语法 2: SingleColumnValueExcludeFilter ( «compare operator», '«comparator»', '«family»', '«qualifier»") 


SingleColumnValueExcludeFilter 比 较 器 有 两 种 语法 ， 下 面 的 两 个 示例 分 别 对 应 上 面 的 两 种 语法 。 


示例 1: 


"SingleColumnValueExcludeFilter ('<=', 'abc', 'FamilyA', 'Columnl', 'false', 'true') " 


示例 2: 


"SingleColumnValueExcludeFilter ('«-', 'abc', 'FamilyA', 'Column1')" 


(18) ColumnRangeFilter 
语法 : ColumnRangeFilter ('«minColumn»', «minColumnInclusive bool», '«maxColumn»', «maxColumninclusive bool») 


示例 如 下 : 


"ColumnRangeFilter ('abc', true, 'xyz', false)" 


10.1.8 ”过 滤器 总 结 


上 面 章节 介绍 了 HBase 包 含 的 各 种 过 滤器 ， 本 小 节 将 以 
一 些 关键 参数 ， 其 含义 如 下 : 


IR] 
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属性 和 兼容 性 等 方面 。 详 细 的 特性 总 结 如 表 10-1 所 示 ， 其 中 Y 表 示 支 持 该 项 特性 ，N 表 示 不 支持 。 表 10-1 的 列 标题 是 


` Batch 表 示 批 量 操作 ， 涉 及 Scan.setBatch () 方法 。 
“ Skip 表示 可 以 与 SkipFilter 共 用 。 
:While 表示 可 以 与 WhileMatchFilter 共 用 。 
' List 表 示 可 以 与 FilterList 共 用 。 
` Eady Out 表示 一 旦 没有 匹配 行 ， 提 前 结束 扫描 器 。 
"Get 表示 是 否 可 以 在 Get 方 法 中 使 用 。 
. Scan 表示 是 否 可 以 在 Scan 方式 中 使 用 。 
表 10-1 多 种 过 滤器 特性 总 结 


Y Y Y * | 


Scan 


RowFilter |ow | w | * | Y N Y 
FamilyFilter Y y 
QualifierFilter Y Y 
ValueFilter Y 


DependentColumnF ilter 
SingleColumnValueFilter 


SingleColumnValueExcludeFilter 


PrefixFilter Y 
PageFilter Y: 
KeyOnlyFilter Y 
First&eyOnlyFilter 


InclusiveStopFilter 


TimestampsFilter 
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ColumnCountGetFilter B. N 
ColumnPaginationFilter Y 
ColumnPrefixFilter | Y | Y | vx | Y 
RandomRowFilter Y 
SkipFilte Lv | «x [x | Y 
WhileMatchFilter Y 
Filis Y 
102 计数 器 


计数 器 可 以 方便 、 快 速 地 进行 计数 操作 ， 而 且 避 免 了 加 锁 等 保证 原子 性 的 操作 。 但 是 本 质 上 ， 计 数 器 还 是 列 ， 有 自己 的 列 族 和 列 名 。 值 得 注意 的 是 ， 维 护 计数 器 的 值 最 好 使 用 HBase 提 供 的 AP1， 直 接 操 
作 更 新 很 容易 造成 数据 混乱 。 计 数 器 所 负责 的 工作 在 RegionServer 中 完成 ， 而 不 是 在 客户 端 中 。 计 数 器 的 增 量 可 以 是 正 数 或 负数 ， 正 数 代表 加 ， 负 数 代表 减 。 


10.2.1 使 用 Shell 操 作 计数 器 


为 了 解 关 于 计数 器 的 更 多 细节 ， 这 里 先 通过 讲解 一 个 示例 对 计数 器 有 一 个 直观 印象 ， 之 后 再 对 计数 器 展开 深入 介绍 。 


hbase (main) : 001: 0» create 'counters', 'cfl', 'cf2' 

0 row (s) in 4.0380 seconds 

hbase (main) : 002: 0» incr 'counters', 'rkl', 'cfl: count', 1 
COUNTER VALUE = 1 

hbase (main) : 003: 0» 

hbase (main) : 004: 0* incr 'counters', 'rkl', 'cfl: count', 1 
COUNTER VALUE = 2 

hbase (main) : 005: 0» get counter 'counters', 'rkl', 'cfl: count' 
COUNTER VALUE = 2 


在 上 面 的 代码 中 ，create 创 建 的 是 表 counters，incr 方 法 是 计数 器 操作 的 方法 ， 对 应 字段 是 cf1:count，get_counter 方 法 用 于 获取 计数 的 值 。 


在 HBase Shell 客 户 端 中 ，incr 方 法 的 使 用 方法 如 下 : 


hbase (main) : 007: 0> incr 

ERROR: wrong number of arguments (0 for 3) 

Here is some help for this command: 

Increments a cell 'value' at specified table/row/column coordinates. 
To increment a cell value in table 't1' at row 'r1' under column 
'cl' by 1 (can be omitted) or 10 do: 


hbase» incr 'tl', "'rl', 'cl' 
hbase» inct 'tl', Telte Tol, 1 
hbase» incr 'tl', 'r1', 'c1', 10 


将 上 面 的 代码 抽象 后 的 命令 使 用 格式 如 下 : 


incr '<table>', '<row>', '<column>'， [<increment-value>] 


在 incr 方 法 的 使 用 中 ， 最 后 的 increment-value 值 也 可 以 是 大 于 1 的 整数 、 负 数 和 空 等 ， 下 面 的 示例 将 分 别 列举 使 用 这 些 不 同 值 带 来 的 效果 。 


hbase (main) : 010: 0» get counter 'counters', 'rkl', 'cfl: count' 

COUNTER VALUE = 2 E. 

hbase (main) : O11: 0» incr 'counters', 'rkl', 'cfl: count', 20 // 加 20 
COUNTER VALUE = 22 

hbase (main) : 012: 0» get counter 'counters', 'rkl', 'cfl: count' 

COUNTER VALUE = 22 

hbase (main) : 013: 0» incr 'counters', 'rkl', 'cfl: count' | -1 // 相 当 于 减 1 
COUNTER VALUE = 21 

hbase (main) : 014: 0> get counter 'counters', 'rkl', 'cfl: count' 

COUNTER VALUE - 21 

hbase (main) : 015: 0» incr 'counters', 'rkl', 'cfl: count' // 空 的 情况 等 同 于 加 1 
COUNTER VALUE = 22 

hbase (main) : 016: 0> get counter 'counters', 'rkl', 'cfl: count' 


COUNTER VALUE = 22 


实质 上 ， 计 数 器 在 HBase 表 中 是 以 某 个 字段 的 方式 存在 的 ， 所 以 通过 普通 的 查询 方法 也 可 以 获取 计数 器 的 值 ， 下 面 的 代码 就 是 使 用 Scan 方法 获取 计数 器 的 示例 。 


hbase (main) : 008: 0» scan 'counters' 

ROW COLUMN4CELL 

rkl column-cfl: count, timestamp-1383212661095, 
value-WVx00 x00 Nx00Nx00 x00 Vx00 x00 x02 

1 row (s) in 0.0350 seconds 


不 过 ， 从 上 面 的 代码 中 可 以 看 到 ，Value 对 应 的 值 是 十 六 进 制 表示 。 在 实际 存储 中 ， 该 值 类 型 是 java 中 的 Long 型 。 当 然 ， 不 仅 可 以 使 用 Scan 获取 计数 器 的 值 ， 使 用 Get 同 样 也 可 以 达到 目的 ， 代 码 如 


hbase (main) : 009: 0» get 'counters', 'rkl' 

COLUMN CELL 

cfl: count timestamp-1383212661095, 
value-WVx00 x00 x00 x00 x00 x00 x00 x02 

1 row (s) in 0.0160 seconds 


10.2.2 ”基于 单列 的 计数 器 


本 着 由 浅 入 深 的 原则 ， 先 了 解 比较 简单 的 计数 器 一 一 基于 单列 的 计数 器 ， 单 列 计数 器 必须 显 式 地 指定 确定 的 列 ， 并 且 只 能 是 一 列 。 所 涉及 的 API 如 下 : 


org.apache.hadoop.hbase.client.HTable 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
f** 
* (GinheritDoc) 
xp 
GOverride 
public long incrementColumnValue (final byte [] row, final byte [] family, 
final byte [] qualifier, final long amount) 
throws IOException ( 
return incrementColumnValue (row, family, qualifier, amount, true); 


l 

f** 

* (8inheritDoc) 

dA 

GOverride 

public long incrementColumnValue (final byte [] row, final byte [] family, 
final byte [] qualifier, final long amount, final boolean writeToWAL) 


throws IOException ( 
NullPointerException npe - null; 
if (row == null) ( 
npe = new NullPointerException ("row is null") ; 
} else if (family == null) { 
npe = new NullPointerException ("column is null") ; 


} 
if (npe ! = null) { 
throw new IOException ( 
"Invalid arguments to incrementColumnValue", npe) ; 
} 
return new ServerCallable<Long> (connection, tableName, row, operationTimeout) { 
public Long call () throws IOException { 
return server.incrementColumnValue ( 
location.getRegionInfo () .getRegionName () , row, family, 
qualifier, amount, writeTOWAL) ; 
} 
}.withRetries () ; 


的 代码 展示 了 两 个 方法 API 


在 上 面 代码 中 包含 两 个 方法 ， 第 一 个 方法 没有 指定 是 否 写 日 志 字段 ， 默 认 是 写 ; 第 二 个 方法 包含 该 字段 ， 使 用 者 可 以 自己 决定 是 否 需要 写 日 志 ， 该 方法 和 Put 方 法 类 似 。 上 
的 内 部 实现 ， 接 下 来 讲解 如 何 使 用 该 AP1， 代 码 示例 如 下 : 


回 


public void testIncr () throws IOException ( 


long st = System.currentTimeMillis () ; 
byte[] rk = Bytes.toBytes ("rkl") ; 
byte[] cf = Bytes.toBytes ("cf1"); 
byte[] c = Bytes.toBytes ("count") ; 


long cur = table.incrementColumnValue (rk, cf, c, OL); // 不 增加 

System.out.println ("cur: " + cur) ; 

cur = table.incrementColumnValue (rk, cf, c, 10241); // 增 加 1024 

System.out.println ("cur: " + cur); 

cur = table.incrementColumnValue (rk, cf, c, 1L); // 增 加 1 

System.out.println ("cur: " + cur) ; 

long en = System.currentTimeMillis () ; 

System.out.println ("time: "+ (en - st) + "http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/14884/0EBPS/Text/... ms") ; 


10.2.3 ”多 列 计数 器 


另 一 种 计数 器 的 访问 方式 是 多 列 计数 器 ， 用 于 同时 更 新 同一 个 行 键 下 多 列 的 计数 器 值 。 该 方法 的 名 称 是 increment () ， 参 数 是 Increment 实 例 ， 方 法 的 具体 逻辑 如 下 : 


org.apache.hadoop.hbase.client.HTable 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
GOverride 
public Result increment (final Increment increment) throws IOException ( 
if (! increment.hasFamilies () ) 
throw new IOException ( 
"Invalid arguments to increment, no columns specified") ; 


return new ServerCallable«Result» (connection, tableName, increment.getRow () ， 
operationTimeout) { 
public Result call () throws IOException { 
return server.increment ( 
location.getRegionInfo () .getRegionName () , increment) ; 
} 
} .withRetries () ; 


在 使 用 上 面 代 码 中 的 方法 的 时 候 需 要 构造 Increment 实 例 。Increment 示 例 的 构造 方法 有 三 种 : 


* Increment () 
- Increment (byte[Jrow) 


* Increment (byte[]row , RowLock rowLock) 


在 以 上 三 种 方法 中 ， 前 两 种 方法 很 好 理解 ， 第 一 种 无 需 传 参 ， 第 二 种 根据 行 键 进行 构造 ， 第 三 种 多 了 一 个 参数 rowLock， 该 参数 是 RowLock 的 实例 。 如 果 对 同一 行进 行 多 次 修改 ， 可 以 防止 在 操作 计数 
器 的 时 候 其 他 用 户 进行 写 入 操作 。 


构造 完 Increment 示 例 后， 需要 添加 计数 器 的 字段 值 ， 使 用 addClolumn () 方法 ， 可 以 多 次 进行 该 操作 ， 即 可 以 添加 多 个 字段 。 这 里 没有 addFamily () 方法 ， 列 族 和 列 的 添加 都 在 addColumn () 
方法 中 进行 ， 具 体 的 使 用 示例 如 下 : 


Increment incr = new Increment (Bytes.toBytes ("rk2") ) ; // 构 造 Increment 实 例 
incr.addColumn (Bytes.toBytes ("cf1") , Bytes.toBytes ("count1") , 1); 

// 同 时 添加 多 个 字段 和 计数 器 
incr.addColumn (Bytes.toBytes ("cfl") , Bytes.toBytes ("count2"), 1); 
incr.addColumn (Bytes.toBytes ("cf2"), Bytes.toBytes ("countl") , 10); 
incr.addColumn (Bytes.toBytes ("cf2") , Bytes.toBytes ("count2") , 10); 


Result resultl = table.increment (incr) ; / IM 
for (KeyValue kv : resultl.raw O ) { // 输 出 结果 
System.out.println ("KV: " + kv +" Value: " + Bytes.tolong (kv.getValue () ) ) ， 


} 


10.3” 协 处 理 器 


协 处 理 器 (Coprocesssor) 是 在 HBase 0.92 版 本 加 入 的 新 功能 。 协 处 理 器 的 思想 是 把 处 理 的 复杂 代码 分 发 到 各 个 RegionServer， 使 大 部 分 的 计算 可 以 在 服务 器 端 ， 或 者 扫描 的 时 候 完 成 ， 提 高 处 理 效 
率 。 形 式 上 比较 类 似 RDBMS 中 的 存储 过 程 ， 不 同 的 是 ， 存 储 过 程 的 原理 是 在 服务 器 端 进行 预 处 理 等 优化 ， 而 协 处 理 器 仅仅 只 是 服务 器 处 理 ， 这 里 又 有 点 类 似 于 MapReduce 中 的 Map 阶 段 。 


协 处 理 器 (Coprocesssor) 有 两 种 ， 一 种 是 Obsever (观察 者 ) ， 另 外 一 种 是 Endpoint (端点 ) 。 每 个 协 处 理 器 都 有 一 个 优先 级 ， 优 先 级 分 为 USER/SYSTEM ， 优 先 级 决定 处 理 器 的 执行 顺 
序 ，SYSTEM 级 别 的 处 理 器 永远 高 于 USER。 每 个 处 理 器 都 有 自己 的 执行 环境 (Coprocessor Environment) ， 这 个 环境 包含 当前 集群 和 请 求 的 状态 等 信息 ， 是 处 理 中 重要 的 一 部 分 ， 以 构造 函数 参数 的 形式 
被 传 入 处 理 器 。 


10.3.1 ”认识 协 处 理 器 


对 存储 在 HBase 的 数据 ，HBase 有 非常 高 效 的 MapReduce 整 合 ， 但 是 在 很 多 情况 中 ， 例 如 ， 简 单 的 加 法 或 者 类 似 求 总 和 、 计 数 等 聚合 等 操作 ， 如 果 将 计算 推送 到 服务 器 端 ， 在 服务 器 端 直接 操作 数据 ， 
避免 通信 开销 ， 可 以 提高 扫描 器 的 效率 。 


在 HBase 0.92 版 本 之 前 ， 不 能 通过 继承 基 类 的 方式 扩展 一 般 的 方法 。 因 为 Java 缺 少 多 继承 机 制 ， 如 果实 现 多 继承 ， 需 要 将 所 有 扩展 和 基本 类 代码 都 重 构 到 一 个 单独 的 类 中 ， 以 支持 所 有 的 实现 。 当 考虑 
多 继承 时 ， 这 样 做 会 让 代码 变 得 非常 脆弱 。 那 该 如 何 实现 继承 ? 


协 处 理 器 允许 一 个 更 灵活 的 混合 继承 模型 ， 该 模型 支持 灵活 性 和 通用 扩展 ， 可 以 直接 在 服务 器 端 进行 计算 。 协 处 理 器 的 思想 源 自 Google “BigTable” 中 的 协 处 理 器 [1]， 其 特性 如 下 : 


“ 任意 代码 都 可 以 在 每 个 服务 器 的 每 个 tablet 上 执行 。 

“ 具有 客户 端 高 级 调用 接口 。 

“ 调用 到 某 行 或 者 某 些 行 ， 协 处 理 器 客户 端 库 解 决 它 们 的 具体 位 置 。 
“ 跨越 多 行 的 调用 自动 分 成 多 个 并 行 的 RPC 调 用 。 

“ 为 分 布 式 服务 提供 一 个 灵活 的 模型 。 

“能 自动 进行 扩展 、 均 衡 负 载 、 请 求 路 由 。 


回 到 HBase， 协 处 理 器 提供 了 一 些 令 人 兴奋 的 新 特征 ， 例 如 ， 二 级 索引 、 复 杂 过 滤器 和 权限 控制 。HBase 协 处 理 器 的 设计 灵感 源 自 BigTable 的 协 处 理 器 ， 但 是 它们 之 间 又 有 很 多 实现 细节 上 的 不 同 。 


: HBase 协 处 理 器 创建 的 是 一 个 框架 ， 该 框架 支持 一 个 库 和 执行 用 户 代码 的 运行 时 环境 ， 在 HBase RegionServer 和 Master 进 程 内 。 而 Google 的 协 处 理 器 只 运行 在 Tablet 服 务 器 上 。 
: HBase 协 处 理 器 可 以 被 全 局 加 载 ， 作 用 在 所 有 表 和 Region 上 ， 这 些 是 系统 级 协 处 理 器 ; 或 者 管理 员 能 指定 协 处 理 器 工作 在 一 个 表 的 所 有 Region 上 ， 是 基于 表 的 ， 这 些 是 表 级 协 处 理 器 。 


:为 了 支持 足够 灵活 的 协 处 理 器 的 潜在 行为 ， 该 框架 提供 两 类 不 用 的 扩展 。 一 类 是 Observer， 类 似 传统 数据 库 中 的 Trigger; 另 一 类 是 EndPoint， 动 态 RPC 端 点 ， 类 似 存 储 过 程 。 


10.3.2 ”观察 者 Observer 


Observer 背后 的 思想 是 ， 协 处 理 器 框架 支持 插入 用 户 代码 ， 重 写 向 上 调用 方法 。 当 事件 发 生 的 时 候 ， 回 调 方法 由 HBase 的 核心 代码 执行 。 在 HBase 很 多 的 底层 活动 中 ， 协 处 理 器 框架 处 理 所 有 回调 的 细 
节 ， 协 处 理 器 只 需 插入 额外 的 方法 。 


在 HBase 0.92.0 版 本 中 已 经 包含 三 个 Observer 接 


- RegionObserver: 支持 数据 操作 事件 的 hook ， 如 Get、Put、Delete、Scan 等 ， 可 以 作为 Region 的 约束 条 件 。 
< WALObserver: 支持 WAL 相 关 操 作 的 hook， 其 运行 在 WAL 处 理 相 关 的 上 下 文中 。 


* MasterObserver:. 支持 DDL 类 型 操作 的 hook， 如 create、delete、modify 表 。 该 类 型 Observer 运行 在 HBase mastet 的 上 下 文中 。 


可 以 在 一 个 地 方 同时 加 载 多 个 Observer 一 一 Region、Master 或 者 WAL， 它 们 之 间 根 据 优 先 级 顺序 执行 。 一 个 高 优先 级 的 协 处 理 器 可 以 抢先 行动 ， 低 优先 级 的 则 抛 出 IOException。 事 件 和 方法 特征 的 
集合 在 HBase APl 中 有 展示 ， 下 面 的 内 容 将 详细 介绍 相关 的 事件 和 方法 特征 。 


RegionObserver 接 口 支持 的 回调 : 


“ preOpen, postOpen: Region 向 Master 汇 报 之 前 或 者 之 后 调用 。 

- preFlush, postFlush: MemStore flush 到 新 Store 文 件 之 前 或 之 后 调用 。 

“ preGet，postGet: 客户 端 Get 请 求 发 生前 或 者 之 后 调用 。 

“ preExists, postExists: 客户 端 验证 是 否 存在 的 请 求 之 前 或 者 之 后 调用 。 


: prePut and bostPut: 客户 端 写 入 请 求 之 前 或 者 之 后 调用 。 


- preDelete and postDelete: 客户 端 删除 操作 之 前 或 者 之 后 调用 。 


框架 包含 一 个 简单 的 抽象 类 BaseRegionObserver， 该 类 实现 了 RegionObserver 的 基本 方法 ， 拥 有 默认 行为 ， 所 有 开发 者 只 需要 关注 对 什么 事件 感 兴趣 ， 而 不 需要 关心 回调 的 处 理 。 


AV 


到 10-1 是 一 个 顺序 图 ， 


展示 了 RegionObserver 如 何 与 HBase 的 其 他 模块 一 起 工作 。 


下 面 是 一 个 使 用 RegionObserver 接 口 的 hook 扩 展 的 例子 。 该 协 处 理 器 通过 注入 的 代码 为 一 个 给 定 客户 端 请 求 检测 用 户 信息 ， 类 似 RegionObserver 中 preXXX 的 hook。 如 果 不 允 许 用 户 访问 资源 ， 则 会 
抛 出 AccessDeniedException， 该 异常 意味 着 客户 端 请 求 不 能 被 处 理 ， 客 户 端 将 收 到 该 异常 信息 。 可 参考 HBase Javadoc 查 看 每 个 类 相关 的 完整 方法 列表 。 


package org.apache.hadoop.hbase.coprocessor: 
import java.util.List; 
import org.apache.hadoop.hbase.KeyValue: 
import org.apache.hadoop.hbase.client.Get; 
// Sample access-control coprocessor. It utilizes RegionObserver 
// and intercept preXXX () method to check user privilege for the given table 
// and column family. 
public class AccessControlCoprocessor extends BaseRegionObserver ( 

GOverride 

public void preGet (final ObserverContext«RegionCoprocessorEnvironment» c, 
final Get get, final List«KeyValue» result) throws IOException 

throws IOException ( 
// 检 测 权限 
if (! permissionGranted () ) { 
throw new AccessDeniedException ("User is not allowed to access.") ; 


// 重 写 prePut O) 、 preDelete () 


cpHost:coprocessorHost ro:RegionObserver 


client:Client tableA:HTable rs: HRegionServer raatonHRegion gion 


get(new Get()) , : | : | i 
get(Get) | | | | 
get(Get) i i 
preGet(Get) | 
[] $ 
[for each loaded ro] 
preGet(Get) i 
HRegion. get() 
postGet(Get, result) 
[] 
[for each loaded ro] 
PostGet(get, result) 
MC. result | 
-------_ /result 
......Fesult j 
......fesult 
result 


图 10-1 RegionObserver 工 作 时 序 图 


MasterObserver 接 口 支 持 下 面 的 回调 : 


preCreateTable/postCreateTable: Called before and after the region is reported as 


online to the master. 
preDeleteTable/postDeleteTable 
preModifyTable/postModifyTable 
preAddColumn/postAddColumn 


WALObserver 支 持 下 面 的 回调 : 


preWALWrite/postWAlWrite: called before and after a WALEdit written to WAL. 


10.3.3 ”终端 EndPoint 


一 个 EndPoint。EndPoint 在 目标 Region 上 远程 执行 ， 最 终 执行 结果 返回 客户 端 。EndPoint 是 


如 前 面 提 到 的 ，Observer 类 似 数据 库 的 Trigger，EndPoint 类 似 存储 过 程 。 任 意 时 间 ， 客 户 端 都 可 以 调 
动态 RPC 接 口 扩展 ， 在 服务 器 端 中 实现 ， 由 HBase RPC 调 用 。 客 户 端 库 支持 通过 非常 便利 的 方法 调用 动态 接口 。 


为 了 创建 和 使 用 EndPoint， 需 要 实现 下 面 的 操作 : 
- 创建 一 个 继承 CoprocessorProtocol 的 新 协议 接口 。 
“ 实现 EndPoint 接 口 。 该 实现 将 被 加 载 到 Region 的 上 下 文中 执行 。 
- 继承 抽象 类 BaseEndpointCoprocessor。 该 工具 类 隐藏 了 内 部 实现 细节 ， 如 在 协 处 理 器 框架 中 的 过 程 。 
“ 客户 端 有 两 种 访问 EndPoint 的 方法 : 


“ 在 一 个 Region 上 执行 : 


HTableInterface.coprocessorProxy (Class<T> protocol, byte[] row) 


“ 跨越 多 个 Region 执 行 : 


HTableInterface.coprocessorExec (Class«T» protocol, byte[] startKey, byte[] endKey, 


Batch.Call«T, R» callable) 


下 面 是 一 个 展示 EndPoint 如 何 工作 的 示例 。 该 示例 中 ，EndPoint 扫 描 Region 中 指定 的 列 ， 并 且 聚 合 这 些 值 ， 并 且 将 这 些 Long 型 值 序列 化 ， 返 回 给 客户 端 。 客 户 端 收集 这 些 部 分 聚合 的 结果 并 返回 给 远 
端的 EndPoint 调 用 ， 将 这 些 结果 相 加 ， 得 到 基于 全 表 的 最 终结 果 。 


Qua HBase 客 户 端 负责 分 配 并 行 EndPoint 调 用 到 特定 的 目标 Region， 以 及 获取 返回 结果 呈献 给 应 用 程序 。 类 似 一 个 轻 量 级 的 MapReduce 任 务 : “map” 是 EndPoint 的 执行 端 ， 在 RegionServer 的 每 个 目 


标 Region 上 执行 ，“Reduce” 是 最 终 的 聚合 。 同 时 ， 在 服务 器 端 和 客户 端 库 的 协 处 理 器 框架 ， 类 似 MapReduce 框 架 ， 将 分 布 式 系统 编程 细节 放 到 一 个 干净 、 简 单 的 API 之 后 ， 所 以 开发 人 员 可 以 只 关注 应 用 层 


开发 。 
HBase 和 Hadoop 目 前 都 需要 Java 6， 匿 名 类 有 非常 繁琐 的 语法 。HBase 和 Hadoop 正 在 逐渐 包含 Java7 的 新 特征 ， 期 待 客户 端 EndPoint 繁 完 的 代码 有 实质 上 的 减少 。 


// A sample protocol for performing aggregation at regions. 
public static interface ColumnAggregationProtocol 
extends CoprocessorProtocol { 
// Perform aggregation for a given column at the region. The aggregation 
// will include all the rows inside the region. It can be extended to 
// allow passing start and end rows for a fine-grained aggregation. 
public long sum (byte[] family, byte[] qualifier) throwsIOException; 
l 
// Aggregation implementation at a region. 
public static class ColumnAggregationEndpoint extends BaseEndpointCoprocessor 
implements ColumnAggregationProtocol { 
GOverride 
public long sum (byte[] family, byte[] qualifier) 
throws IOException ( 
// aggregate at each region 
Scan scan = new Scan () ; 
scan.addColumn (family, qualifier) ; 
long sumResult = 0; 
InternalScanner scanner = getEnvironment () .getRegion () .getScanner (scan) ; 
try ( 
Yist«KeyValue» curVals = new Arraylist«KeyValue» () ; 
boolean hasMore = false; 
do ( 
curVals.clear O ; 
hasMore = scanner.next (curVals) ; 
KeyValue kv = curVals.get (0) ; 
sumResult += Bytes.toLong (kv.getValue O ) ; 
} while (hasMore) ; 
} finally ( 
scanner.close O ; 
l 
return sumResult; 


客户 端 通过 调用 HTablelnterface 接 口 的 新 方法 coprocessorExec () 实现 Endpoint 方 式 ， 这 些 方法 的 名 称 、 参 数 和 返回 值 如 下 : 


public «T extends CoprocessorProtocol» T coprocessorProxy (Class<T> protocol, Row row) ; 
public «T extends CoprocessorProtocol, R» void coprocessorExec ( 

Class«T» protocol, List< extends Row» rows, 

BatchCall«T, R> callable, BatchCallback«R» callback) ; 
public «T extends CoprocessorProtocol, R» void coprocessorExec ( 

Class«T» protocol, RowRange range, 

BatchCall«T, R> callable, BatchCallback«R» callback) ; 


以 下 是 客户 端 调用 ColumnAggregationEndpoint 的 示例 代码 : 


HTableInterface table = new HTable (util.getConfiguration (), TEST TABLE) ; 
Scan scan; 
Map«byte[]. Long» results: 
// scan: for all regions 
scan = new Scan O ; 
results = table.coprocessorExec (ColumnAggregationProtocol.class, scan, 
new BatchCall«ColumnAggregationProtocol, Long» O { 
public Integer call (ColumnAggregationProtocol instance) throws IOException( 
return instance.sum (TEST FAMILY, TEST QUALIFIER) D 
} 
D: 
long sumResult = 0; 
long expectedResult = 0; 
for (Map.Entry<byte[], Long» e: results.entrySet O ) { 
sumResult += e.getValue () ; 
} 


图 10-2 是 动态 RPC 调 用 的 可 视 化 图 。 应 用 程序 的 代码 客户 端 执行 一 个 批量 操作 。 先 在 每 个 目标 Region 上 初始 化 注册 动态 并 行 RPC 调 用 ， 然 后 返回 这 些 调 用 的 结果 。 客 户 端 库 管 理应 用 程序 的 并 行 通信 、 
尝试 和 错误 处 理 的 细节 ， 直 到 返回 所 有 的 结果 。 然 后 客户 端 库 向 上 汇总 响应 ， 放 到 一 个 Map 中 ， 传 递 给 应 用 程序 。 如 果 遇 到 不 可 恢复 的 错误 则 会 抛 出 异常 信息 。 
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图 10-2 RegionObservet 工 作 时 序 图 


10.34 ” 协 处 理 器 部 署 


如 果 已 经 理解 了 HBase 中 的 协 处 理 器 是 如 何 工作 的 ， 接 下 来 可 以 开始 试验 自己 的 协 处 理 器 实现 ， 部 署 到 HBase 集 群 ， 观 察 新 的 行为 。 前 面 已 经 讲解 了 如 何 使 用 Java 语 言 实现 协 处 理 器 ， 现 在 假设 已 经 拥 
有 了 自己 的 协 处 理 器 代码 ， 编 译 后 打 成 JAR 包 。 下 面 的 章节 中 将 介绍 协 处 理 器 框架 是 如 何 配置 加 载 的 。 


目前 支持 两 种 方式 部 署 协 处 理 器 扩展 : 从 配置 中 加 载 ， 当 Master 或 者 RegionServer 启 动 时 生效 ; 或 者 从 表 属 性 中 加 载 ， 表 重新 打开 的 时 候 动态 加 载 。 因 为 大 部 分 用 户 会 使 用 HBase Shell 中 的 alter 命 令 
设置 表 属 性 ， 从 而 完成 协 处 理 器 的 加 载 ， 所 以 称 这 种 方式 为 Shell 加 载 。 


1. 从 配置 加 载 


当 打开 Region 时 ， 框 架 尝试 读 取 配 置 文件 属性 中 的 如 下 协 处 理 器 类 : 
* Hbase.coprocessor.region.classes: RegionObservers 和 Endpoints 
* Hbase.coprocessor.master.classes: MasterObservers 


* Hbase.coprocessor.wal.classes: WALObservers 


下 面 是 一 个 从 hbase-site.xm| 配 置 RegionObserver 选 项 作为 全 局 变量 的 示例 。 


<property> 
<name>hbase.coprocessor.region.classes</name> 
<value>org.apache.hadoop.hbase.coprocessor.AggregateImplementation</value> 
</property> 


如 果 对 于 加 载 来 说 有 多 个 类 ， 类 名 字 必 须 通 过 逗号 分 隔 。 然 后 ， 框 架 使 用 默认 类 加 载 器 尝试 加 载 所 有 配置 类 。 这 意味 着 JAR 包 必须 包含 在 服务 器 端的 HBase 类 路 径 中 。 


如 果 使 用 这 种 方式 加 载 ， 协 处 理 器 在 所 有 表 的 所 有 Region 上 都 会 生效 。 这 个 是 系统 级 别 的 协 处 理 器 。 第 一 个 列 出 的 协 处 理 器 将 会 被 赋予 Coprocessor.Priority.SYSTEM .的 优先 级 。 该 列表 中 随后 的 协 处 
理 器 的 优先 级 会 一 次 加 1。 


2. 使 用 Shell 加 载 


的 示例 展示 了 如 何 针对 一 个 表 注 册 协 处 理 器 。 


回 


协 处 理 器 通过 Shel 喘 命令 alter 修 改 表 属性 ， 也 可 以 单独 对 一 个 表 生 效 。 下 | 


hbase (main) : 005: 0> alter 'tl', METHOD => 'table att', 
'coprocessor'-»'hdfs: ///foo.jar|com.foo.FooRegionObserver|1001|]argl-1, arg2-2' 
Updating all regions with the new schemahttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
1/1 regions updated. T 
Done. 
0 row (s) in 1.0730 seconds 
hbase (main) : 006: 0> describe 't1' 
DESCRIPTION ENABLED 
{NAME => 't1', coprocessor$1 => 'hdfs: ///foo.jar|com.foo.FooRegio false 
nObserver|1001|argl-1, arg2=2', FAMILIES => [(NAME => 'cl', DATA B 
LOCK ENCODING => 'NONE', BLOOMFILTER => 'NONE', REPLICATION SCOPE 
=> '0', VERSIONS => '3', COMPRESSION => 'NONE', MIN VERSIONS => 
'0', TTL => '2147483647', KEEP DELETED CELLS => 'false', BLOCKSIZ 
E => '65536', IN MEMORY => 'false', ENCODE ON DISK => 'true', BLO 
CKCACHE => 'true')], (NAME => 'fl', DATA BLOCK ENCODING => 'NONE', 
BLOOMFILTER => 'NONE', REPLICATION SCOPE => 'Ü', VERSIONS => '3' 
; COMPRESSION => 'NONE', MIN VERSIONS => '0', TTL => '2147483647' 
; KEEP DELETED CELLS => 'false', BLOCKSIZE => '65536', IN MEMORY 
=> 'false', ENCODE ON DISK => 'true', BLOCKCACHE => 'true']]) 
1 row (s) in 0.0190 seconds 


协 处 理 器 框架 将 尝试 从 协 处 理 器 表 属性 值 中 读 取 类 信息 。 值 包含 四 部 分 信息 ， 通 过 “| ”分 隔 : 


“ 文件 路 径 : 包含 协 处 理 器 实现 JAR 文 件 的 路 径 ， 一 般 推 荐 使 用 HDEFS 存 储 。 如 果 没 有 指定 文件 路 径 ， 框 架 会 尝试 去 服务 器 类 路 径 查找 加 载 。 
“ 类 名 字 : 协 处 理 器 的 全 名 ， 包 含 包 路 径 。 
“ 优先 级 : 整数 。 决 定 执行 顺序 的 部 分 。 该 部 分 可 以 为 空 。 如 果 为 空 ， 框 架 会 赋予 一 个 默认 优先 级 的 值 。 


“ 参数 : 该 部 分 协 处 理 器 实现 的 输入 参数 。 


可 以 通过 Shell 删 除 这 些 已 经 加 载 的 协 处 理 器 ,方式 是 “alter”+ “table_att_unset” 命 令 ，, 具体 操作 示例 如 下 : 


hbase (main) : 007: 0» alter 'tl', METHOD => 'table att unset', 

hbase (main) : 008: 0* NAME => 'coprocessor$1' mE 

Updating all regions with the new schemahttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 

1/1 regions updated. 

Done. 

0 row (s) in 1.1130 seconds 

hbase (main) : 009: 0» describe 't1' 

DESCRIPTION ENABLED 
(NAME => 'tl', FAMILIES => [(NAME => 'cl', DATA BLOCK ENCODING => false 
'NONE', BLOOMFILTER => 'NONE', REPLICATION SCOPE => T0', VERSION 

S => '3', COMPRESSION => 'NONE', MIN VERSIONS => '0', TTL => '214 
7483647', KEEP DELETED CELLS => 'false', BLOCKSIZE => '65536', IN 
MEMORY => 'false', ENCODE ON DISK => 'true', BLOCKCACHE => 'true 

T}, (NAME — 'f1', DATA BLOCK ENCODING => 'NONE', BLOOMFILTER => 
'NONE', REPLICATION_SCOPE => '0', VERSIONS => '3', COMPRESSION => 
'NONE', MIN_VERSIONS => '0', TTL => '2147483647', KEEP DELETED C 

ELLS => 'false', BLOCKSIZE => '65536', IN MEMORY => 'false', ENCO 

DE ON DISK => 'true', BLOCKCACHE => 'true']]) 

1 row (s) in 0.0180 seconds 


3.Shell 查 看 协 处 理 器 状态 


如 果 已 经 配置 过 一 个 协 处 理 器 ， 也 需要 使 用 Shel| 或 者 Master 和 RegionServer 的 Web UI 方式 去 核实 协 处 理 器 状态 。 检 测 是 否 被 加 载 成 功 。 


Shell 命 令 示例 如 下 : 


hbase (main) : 018: 0» alter 'tl', METHOD => 'table att', 
'coprocessor'-»' |org.apache.hadoop.hbase.coprocessor.Aggregatelmplementation 
|1001|argl-1, arg2-2' 
Updating all regions with the new schemahttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
1/1 regions updated. 
Done. 
0 row (s) in 1.1060 seconds 
hbase (main) : 019: 0» enable 't1' 
0 row (s) in 2.0620 seconds 
hbase (main) : 020: 0» status 'detailed' 
version 0.92-tm-6 
0 regionsInTransition 
master coprocessors: |] 
1 live servers 
localhost: 52761 1328082515520 
requestsPerSecond-3,  numberOfOnlineRegions-3,  usedHeapMB-32,  maxHeapMB-995 
-ROOT-. , 0 


numberOfStores-1, numberOfStorefiles-1, storefileUncompressedSizeMB-O0, 
storefileSizeMB-0, memstoreSizeMB=0, 
storefileIndexSizeMB-0,  readRequestsCount-54, writeRequestsCount-l, 
rootIndexSizeKB-0, totalStaticIndexSizeKB-0, 
totalStaticBloomSizeKB-0, totalCompactingKVs-0, currentCompactedKVs-O0, 
compactionProgressPct-NaN, coprocessors-[] 
. > 1 
numberOfStores-1, numberOfStorefiles=0, storefileUncompressedSizeMB=0, 
storefileSizeMB=0, memstoreSizeMB=0, 
storefileIndexSizeMB=0, readRequestsCount=97, writeRequestsCount=4, 
rootIndexSizeKB=0, totalStaticIndexSizeKB=0, 
totalStaticBloomSizeKB=0, totalCompactingKVs=0, currentCompactedKVs=0, 
compactionProgressPct=NaN, coprocessors=[] 
tl, , 1328082575190.c0491168a27620ffe653ec6c04c9b4d1. 
numberOfStores-2, numberOfStorefiles-1, storefileUncompressedSizeMB-O0, 
storefileSizeMB-0, memstoreSizeMB=0, 
storefileIndexSizeMB-0, readRequestsCount-0, writeRequestsCount-0, 
rootIndexSizeKB-0, totalStaticIndexSizeKB-0, 
totalStaticBloomSizeKB-0, totalCompactingKVs-0, currentCompactedKVs-O, 
compactionProgressPCct-NaN, 
Coprocessors- [AggregateImplementation] 
0 dead servers 


如 果 不 能 找到 加 载 的 协 处 理 器 ， 需 要 检查 服务 器 端 日 志文 件 来 定位 加 载 失败 的 原因 。 


[由 有 关 该 实现 的 详细 资料 ， 请 参见 http://www.scribd.com/doc/21631448/Dean-Keynote-Ladis2009， 第 66~67 页 。 


104 Schema 设计 要 点 


Schema 设 计 在 HBase 使 用 中 是 非常 重要 的 一 项 内 容 ， 甚 至 可 以 说 使 用 HBase 存 储 的 关键 就 是 如 何 设计 HBase Schema 的 过 程 。 


104. 行 键 设计 


在 Schema 设 计 中 ， 行 键 的 设计 是 关键 部 分 ， 直 接 关系 到 后 续 服 务 的 访问 性 能 。 如 果 行 键 设计 不 合理 ， 对 于 后 续 查询 服务 会 造成 很 大 的 影响 ,效率 会 成 倍 递减 。 


1. 避 免 单调 递增 行 键 


使 用 HBase 的 过 程 中 ， 会 发 现 这 样 一 个 有 趣 的 想象 : 单线 程 进行 全 表 扫 描 的 时 候 ， 所 有 的 请 求 会 集中 在 一 个 Region 上 ， 等 完成 该 Region 所 有 的 扫描 后 ， 再 扫描 下 一 个 Region， 以 此 类 推 直到 全 表 扫 描 


完成 。 之 所 以 存在 这 种 现象 ， 原 因 是 HBase 的 行 键 是 有 序 排列 的 。 如 果 这 种 情况 发 生 在 写 入 过 程 中 ， 写 入 数据 的 行 键 都 是 单调 递增 有 序 的 或 者 是 时 序数 据 ， 那 么 总 会 集中 一 段 时 间 对 某 一 个 Region 进 行 写 入 


的 操作 。 这 时 候 所 有 的 负载 都 在 同一 台 机 器 上 ， 造 成 单 结 点 的 负载 过 高 ， 所 以 需要 尽量 避免 发 生 这 种 情况 。 


当然 ， 如 果 业 务 确实 需要 将 时 序数 据 导 入 HBase， 可 以 借鉴 OpenTSDB 的 做 法 ， 其 Schema 设计 中 Key 的 格式 是 [metric_ typej[event timestamp]， 这 似乎 违背 了 不 将 timestamp 做 行 键 的 建议 ， 


这 种 格式 中 时 间 戳 并 没有 在 行 键 的 关键 位 置 ， 成 千 上 万 的 metric_ type 已 经 足够 将 压力 分 散 到 各 个 Region ， 即 分 配 到 多 人 台 机 器 上 。 


2. 行 键 与 列 族 的 关系 


行 键 与 列 族 是 一 对 多 的 关系 ， 同 一 个 行 键 可 以 在 同一 个 表 的 每 个 列 族 中 存在 而 不 会 冲突 ， 这 种 关系 在 表 描 述 语句 中 是 显而易见 的 ， 代 码 如 下 : 


其 实在 


'SYSTEM.TABLE', (METHOD => 'table att', coprocessor$1 => '|com.salesforce. 
phoenix.coprocessor.ScanRegionObserver|l|', coprocessor$2 => '|com.salesforce. 
Phoenix.coprocessor.UngroupedAggregateRegionObserver|1|', coprocessor$3 => 


' |com. salesforce.phoenix.coprocessor.GroupedAggregateRegionObserver |1|'; 
coprocessor$4 => '|com.salesforce.phoenix.join.HashJoiningRegionObserver|1l|', 
coprocessor$5 => '|com.salesforce.phoenix.coprocessor.ServerCachingEndpointImpl|1|'; 
coprocessor$6 => '|com.salesforce.phoenix.coprocessor.MetaDataEndpointImpl |1|', 
coprocessor$7 => '|com.salesforce.phoenix.coprocessor.MetaDataRegionObserver |2|', 
CONFIG => ('SPLIT POLICY' => 'com.salesforce.phoenix.schema.MetaDataSplitPolicy'. 
'UpgradeTo20' => "true', ''UpgradeTo21' => 'true')], (NAME => ' 0', DATA BLOCK 
ENCODING => 'FAST DIFF', VERSIONS => '1000', KEEP DELETED CELLS => 'true') 


3. 行 键 的 长 度 


行 键 短 到 可 读 即 可 ， 因 为 对 于 查询 请 求 (Get 或 者 gcan) ， 短 键 并 不 比 长 键 性 能 好 多 少 ， 所 以 设计 行 键 需要 权衡 长 度 ， 既 要 满足 语义 ， 又 要 尽 可 能 地 缩短 以 降低 存储 空间 。 


4. 行 键 永远 不 变 


行 键 不 能 改变 ， 唯 一 可 以 “改变 ”的 方式 是 删除 然后 再 插入 ， 所 以 要 注意 开始 设计 时 需要 定义 满足 业务 需求 的 行 键 ， 如 若 不 然则 会 耗费 不 小 的 代价 进行 数据 转换 。 


5. 尽 量 最 小 化 行 键 长 度 


在 HBase 中 ， 值 是 作为 一 个 单元 (Cell) 保存 在 系统 中 的 ， 要 定位 一 个 单元 ， 需 要 行 键 、 列 名 和 时 间 戳 。 通 常情 况 下 ， 如 果 行 键 和 列 名 太 大 ， 可 能 会 遇 到 一 些 有 趣 的 情况 。 通 过 前 面 章节 的 内 容 ， 我 们 


知道 在 HBase 的 存储 文件 storeFile 中 ， 索 引 部 分 用 来 加 速 值 的 随机 访问 ， 但 是 如 果 访 问 一 个 单元 的 “位 置 坐标 ” 太 大 ， 将 会 占用 很 大 的 内 存 ， 索 引 有 可 能 会 被 用 尽 。 所 以 要 想 解决 ， 可 以 设置 一 个 更 大 的 块 


大 小 ， 当 然 也 可 以 使 用 更 小 的 行 键 和 列 名 。 


无 论 是 行 键 和 列 名 都 会 在 数据 中 重复 上 亿 次 ， 所 以 如 果 保证 这 几 项 内 容 足 够 小 ， 那 么 相应 地 将 会 节省 相当 可 观 的 物理 存储 ， 这 也 是 需要 最 小 化 行 键 和 列 名 大 小 的 一 个 原因 。 


10.4.2 ” 列 族 设计 


1. 列 族 的 数量 


现在 HBase 并 不 能 很 好 地 处 理 两 个 或 者 三 个 以 上 的 列 族 ， 所 以 尽量 让 你 的 列 族 数量 少 一 些 。 目 前 ，flush 和 compaction 操 作 针对 一 个 Region。 所 以 当 一 个 列 族 操作 大 量 数 据 的 时 候 会 引发 一 个 flush。 那 
些 不 相关 的 列 族 也 会 进行 flush 操 作 ， 尽 管 它们 没有 操作 多 少数 据 。Compaction 操 作 现 在 是 根据 一 个 列 族 下 的 全 部 文件 的 数量 触发 的 ， 而 不 是 根据 文件 大 小 触发 的 。 当 很 多 的 列 族 在 flush 和 compaction 


半 ， 会 造成 很 多 无 效 的 |/O 负 载 。 


尽量 在 你 的 应 用 中 使 用 一 个 列 族 。 只 有 你 的 所 有 查询 操作 只 访问 一 个 列 族 的 时 候 ， 可 以 引入 第 二 个 和 第 三 个 列 族 。 例 如 ， 你 有 两 个 列 族 ， 但 你 查询 的 时 候 总 是 访问 其 中 的 一 个 ， 从 来 不 会 两 个 一 起 访 


问 。 


2. 列 族 名 长 度 


基于 上 面 提 到 的 节省 存储 空间 的 原因 ， 要 尽量 减 小 列 族 的 长 度 ， 最 好 是 一 个 字符 ， 例 如 字母 “d ”表示 data 或 default，“v” 代 表 value 等 。 


3. 列 族 的 基数 


列 族 的 基数 (即行 数 ) ， 如 果 表 存在 多 个 列 族 ， 列 族 A 有 100 万 行 ， 列 族 B 有 10 亿 行 ， 列 族 A 可 能 被 分 散 到 很 多 Region (或 RegionServer) 中 ， 这 会 导致 扫描 列 族 A 时 性 能 低下 。 


105 “二 级 索引 


随 着 在 HBase 系 统 上 应 用 的 发 展 ， 慢 慢 可 以 发 现 ， 单 一 的 通过 Rowkey 检 索 数 据 的 方式 不 再 满足 更 多 应 用 的 需求 ， 用 户 更 希望 像 SQL 一 样 检索 数据 ， 例 如 select*from table name where col-'val', 但 
是 ，HBase 之 前 的 定位 是 大 数据 量 表 的 存储 ， 要 进行 这 样 的 查询 ， 往 往 需 要 通过 类 似 Hive、Pig 等 系统 进行 全 表 的 MapReduce 计 算 ， 而 这 种 方式 既 浪 费 了 机 器 的 计算 资源 ， 又 因 高 延迟 使 得 应 用 黯然 失色 。 
于 是 ， 在 业界 和 社区 ， 针 对 HBase Secondary Indexing (HBase 二 级 索引 ) 的 方案 ， 成 为 HBase 新 版 本 呼声 很 高 的 一 项 特征 。 


纵 观 整个 社区 和 业界 有 关 的 二 级 索引 的 实现 方式 ， 总 结 后 大 概 分 为 5 类 ， 读 者 可 以 对 比 每 种 实现 方式 ， 选 取 适 合 自己 应 用 场景 的 方式 来 使 用 。 接 下 来 详细 的 介绍 。 


10.5.1 Client-managed 方 式 


客户 端 管理 方式 的 实现 完全 在 应 用 层 ， 创 建 和 访问 索引 部 分 和 源 数据 操作 都 由 客户 端 一 方 完 成 。 客 户 端的 操作 通过 封装 Get、Scan、Put、Delete 等 AP1， 实 现 业务 逻辑 。 该 方式 实现 过 程 包含 两 部 分 : 
源 数 据 操作 和 索引 数据 操作 。 源 数据 操作 前 面 已 经 介绍 过 ， 这 里 不 再 歼 述 。 下 面 重点 介绍 一 下 索引 数据 操作 部 分 。 


索引 数据 操作 部 分 包含 三 个 步骤 : 定义 索引 表 结 构 、 创 建 索引 和 访问 索引 。 为 了 更 好 地 区 分 源 数据 和 二 级 索引 数据 ， 一 般 将 源 数据 表 和 索引 表 区 分 开 ， 即 在 源 数据 表 之 外 创建 一 张 索引 表 用 于 存储 二 级 
索引 数据 。 所 以 需要 首先 定义 索引 表 结 构 ， 这 里 索引 表 只 需要 一 个 列 族 ， 并 且 该 列 族 中 只 需要 一 个 字段 ， 即 代表 源 数据 主键 的 字段 。 其 实 本质 上 是 一 个 倒 排 表 。 


创建 索引 部 分 需要 用 到 源 数据 ， 然 后 获取 需要 创建 索引 的 字段 ， 重 新 组 织 后 写 入 索引 表 。 例 如 下 面 这 条 源 数据 : 


ROW COLUMNHCELL 

123243425858410021 763178332 column-m: form type, timestamp-1384276515, value-2 
123243425858410021 763178332 column-m: from, timestamp-1384276515, Value=sys 
123243425858410021 763178332 column-m: message id, timestamp-1384276515, value-10016948 
123243425858410021 763178332 column-m: status, timestamp-1384276515, value-0 


如 果 对 m:message id 字段 创建 索引 ， 那 么 提取 m:message _id 的 值 10016948， 然 后 拼接 索引 表 的 主键 为 m:message_id-10016948， 列 名 为 m:rk， 值 为 123243425858410021_763178332， 具 体 数据 
展示 如 下 : 


ROW COLUMN+CELL 
m: message id-10016948 column-m: rk, timestamp=1384276515, value=123243425858410021 763178332 


访问 索引 部 分 与 访问 源 数据 的 方法 相同 ， 不 同 的 地 方 就 是 读 取 的 表 名 不 同 。 访 问 索引 需要 在 索引 表 上 查询 。 另 外 ， 对 于 删除 数据 操作 和 写 入 操作 类 似 ， 但 需要 注意 HBase 删 除 操作 的 特性 。 


10.5.2 ITHBase 实 现 


ITHBase (Indexed-Transanctional HBase) 是 业界 已 经 实现 的 一 种 基于 事务 的 二 级 索引 项 目 [0]， 并 且 在 Github 上 开源 。 该 项 目 基于 HBase 0.20 版 本 ， 版 本 比较 陈 上 日， 但 其 思想 可 以 借鉴 给 各 位 读 
者 。 


1. 事 务 原理 简介 


建 一 个 事务 表 _GLOBAL TRX LOG_, 每 次 开启 事务 时 ， 在 表 中 记录 状态 。 因 为 是 基于 HBase 的 HTable， 事 务 表 同样 会 写 WAL 用 于 恢复 ， 不 过 这 个 日 志 格 式 被 ITHBase 改 造 过 ， 称 为 THLog。 


客户 端 更 新 多 个 表 时 ， 先 启动 事务 ， 然 后 每 次 PUT， 将 事务 id 传递 给 HRegionServer。ITHBase 通 过 继承 HRegionServer 和 HReogin 类 ， 重 写 了 大 多 数 操作 接口 方法 ， 比 如 put、update、delete， 用 了 
获取 transactionalld 和 状态 。 


当 Server 收 到 操作 和 事务 id 后 ， 先 确认 服务 端 收 到 ， 标 记 当 前 事务 为 待 写 入 状态 (需要 再 发 起 一 次 PUT) 。 当 完成 所 有 表 的 操作 后 ， 由 客户 端 统一 做 commit 写 入 ， 做 二 阶段 提交 。 详 细 流程 如 图 10-3 所 


示 。 
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图 10-3 ITHBase 事 务 提 交 原 理 示 意外 


2. 参 数 配 置 


需要 改动 HBase 配 置 才能 使 用 THBase， 配 置 4$HBASE_HOME/conf/hbase-site.xml 文 件 ， 添 加 或 修改 如 下 代码 : 


Hbase.hlog.splitter.impl- 
org.apache.hadoop.hbase.regionserver.transactional.THLogSplitter 
Hbase.regionserver.class- 
org.apache.hadoop.hbase.ipc.IndexedRegionInterface 
Hbase.regionserver.impl- 
org.apache.hadoop.hbase.regionserver.tableindexed.IndexedRegionServer 
Hbase.hregion.impl- 
org.apache.hadoop.hbase.regionserver.tableindexed.IndexedRegion 


其 中 代码 中 提 到 的 类 与 在 ITHBase 项 目 中 的 类 相对 应 ， 所 以 需要 将 ITHBase 的 JAR 包 复制 到 每 台 HBase 节 点 ， 配 置 完成 后 需要 重启 RegionServer。 


3. 索 引 特 性 


ITHBase 二 级 索引 具有 如 下 特性 : 


“ 对 主 表 进 行 插 入 删除 操作 ， 索 引 表 会 自动 进行 相应 操作 。 

“ 对 主 表 索引 列 进行 修改 操作 ， 索 引 表 会 自动 进行 相应 调整 ; 若 在 主 表 中 删除 索引 列 ， 则 索引 表 中 索引 不 到 (插入 数据 的 规范 性 ) o 
“ 可 以 直接 对 索引 表 插 入 删除 ， 主 表 不 会 改变 〈 看 是 否 有 相关 设置 以 保证 不 能 对 索引 表 进 行 单独 操作 ) 。 

4. 单 列 索引 


创建 单列 索引 是 ITHBase 的 基本 特性 ， 即 针对 某 一 列 创建 索引 ， 其 创建 方法 如 下 : 


IndexedTableAdmin indexedAdmin = new IndexedTableAdmin (config) ; 

HTableDescriptor desc - new HTableDescriptor ("car") ; 

desc.addFamily (new HColumnDescriptor ("carInfo") ) ; 

IndexedTableDescriptor indexDesc = new IndexedTableDescriptor (desc) ; 

//Specification 

IndexSpecification indexSpec = new IndexSpecification ("index", Bytes.toBytes ("carInfo: data") ) ; 
indexDesc.addIndex (indexSpec) ; 

indexedAdmin.setBatchSize (10) ; // To fully test re-indexing 

indexedAdmin.createIndexedTable (indexDesc) ; 


5. 多 列 索引 


自己 写 一 个 类 ， 实 现 IndexKeyGenerator 接 口 ， 实 现 两 列 值 的 组 合 索引 功能 。 即 支持 两 列 值 作为 索引 Key。 将 其 打 成 JAR 包 并 复制 到 集群 中 所 有 服务 器 的 $4HBASE_HOME/lib 下 。 多 列 索引 的 使 用 方法 如 


IndexedTableAdmin indexedAdmin = new IndexedTableAdmin (config) ; 

HTableDescriptor desc = new HTableDescriptor ("car") ; 

desc.addFamily (new HColumnDescriptor ("carInfo") ) ; 

IndexedTableDescriptor indexDesc - new IndexedTableDescriptor (desc) ; 

// Create a new index that does lexicographic ordering on COL A 

//Specification 

byte[] columnl = Bytes.toBytes ("carInfo: data") ; 

byte[] column2 = Bytes.toBytes ("carInfo: type") ; 

IndexSpecification indexSpec = new IndexSpecification ("busindex", new byte[][] 
[columni, column2), null, new MultilIndexKeyGenerator (columnl, column2) ) ; 

indexDesc.addIndex (indexSpec) ; 

indexedAdmin.setBatchSize (10) ; // To fully test re-indexing 

indexedAdmin.createIndexedTable (indexDesc) ; 


10.5.3 1IHBase 实 现 


IHBase (Indexed HBase) 也 是 业界 已 经 实现 的 一 种 二 级 索引 项 目 和 由 ， 并 且 在 Github 上 开源 。 该 项 目 基于 Hadoop 0.20.2, HBase 0.20.5 和 JDK 1.6，IHBase 非 常 类 似 ITHBase。1IHBase 同 样 从 HBase 
源码 级 别 进行 了 扩展 ， 重 新 定义 和 实现 了 一 些 Server、Client 端 处 理 逻 辑 ， 所 以 ， 其 具备 强 侵入 性 。 遗 憾 的 是 ， 该 项 目 在 修复 完 HBase 0.20.5 版 兼容 Bug 以 后 再 也 没有 更 新 ， 是 否 支持 0.92 以 上 版 本 ， 笔 者 还 


尝试 。 


其 核心 原理 是 : 当 MemStore 满 足 缓冲 (flush) 到 磁盘 条 件 时 ，IHBase 会 进行 拦截 请 求 并 为 这 个 MemStore 的 数据 构建 索引 ， 索 引 存 放 于 表 的 另 一 个 列 族 中 ， 不 过 只 支持 Region 级 别 (类 似 
Coprocessor) 。 在 执行 Scan 时 ，IHBase 会 结合 索引 列 中 的 标记 来 加 速 Scan。 


10.5.4 ”Coprocessor 方 式 


HBase 从 0.92.0 开 始 有 Coprocessor， 支 持 Region 级 别 索 引 ， 使 用 Server 端 hook， 协 处 理 器 的 机 制 可 以 理解 为 ，Server 端 添加 了 一 些 回调 函数 ， 利 用 这 些 hook 可 以 实现 Region 级 二 级 索引 ， 实 现 
count、sum、avg、max 和 min 等 聚合 操作 而 不 需要 返回 所 有 的 数据 1。 


根据 提供 的 这 些 hook， 二 级 索引 的 实现 可 以 通过 拦截 同一 个 Region 的 put、get、scan、delete 等 操作 。 与 此 同时 ， 在 同一 个 Reigon 里 维护 一 个 索引 列 族 ， 建 立 对 应 的 索引 表 。 基 于 Region 的 索引 表 其 
实 有 很 多 局 限 性 ， 比 如 全 局 排序 就 很 难 实现 。 不 过 ，Coprocessor 最 大 的 好 处 在 于 其 提供 了 服务 器 端的 完全 扩展 能 力 。 


的 代码 是 协 处 理 器 实现 二 级 索引 的 小 示例 ， 关 于 更 深入 的 应 用 ， 读 者 可 以 借鉴 Phoenix 项 目 。 


类 似 Phoenix 的 项 目 已 经 通过 协 处 理 器 实现 了 二 级 索引 内 。 下 


四 


public class IndexCoprocessor extends BaseRegionObserver ( 

GOverride 

public void prePut (final ObserverContext«RegionCoprocessorEnvironment» e, 
final Put put, final WALEdit edit, final boolean writeToWAL) 

throws IOException ( 

//set configuration 

Configuration conf = new Configuration () ; 


//need conf.sethttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
HTable table = new HTable (conf, "indexTableName") ; 
List«KeyValue» kv = put.get ("familyName".getBytes () , "columnName".getBytes () ) ; 
Iterator«KeyValue» kvItor = kv.iterator O ; 
while (kvItor.hasNext (0) ) { 
KeyValue tmp = kvItor.next () ; 
Put indexPut = new Put (tmp.getValue (0 ) ; 
indexPut.add ("familyName".getBytes (0,  "columnName".getBytes () , tmp.getRow () ) ; 
table.put (indexPut) ; 


} 
table.close () ; 
} 

} 


10.5.5 ”MapReduce 两 种 方式 


MapReduce 方 式 和 客户 端 方式 类 似 ， 区 别 在 于 一 个 实时 性 强 ， 一 个 是 离线 批量 计算 。 基 于 MapReduce 的 二 级 索引 实现 方式 有 两 种 : 


- 直接 实现 MapReduce 创 建 二 级 索引 。 此 种 方式 延 时 性 高 ， 灵 活性 大 ， 可 以 根据 集群 压力 适当 安排 创建 索引 过 程 ， 可 以 参考 Github 上 开源 的 一 些 项 目 癌 。 


“ Hive/Pig 整 合 HBase 方 式 。 使 用 这 种 方式 聚合 计算 ， 不 创建 二 级 索引 存储 节省 ， 也 不 需要 创建 索引 表 ， 只 需要 靠 强大 的 集群 计算 能 力 即 可 导出 结果 ， 但 是 非常 耗 时 ， 但 一 般 不 适合 Online 业 务 。 并 且 查 
询 给 整个 集群 的 压力 非常 大 ， 会 影响 线 上 其 他 用 户 的 读 写 性 能 。 


[由 有 关 该 实现 的 详细 资料 ，5 
[中 有 关 该 实现 的 详细 资料 ， 池 
[3] 有 关 该 实现 的 详细 资料 ， 请 参见 https://issues.apache.org/jira/browse/HBASE-1512。 
[得 有 关 该 实现 的 详细 资料 ， 请 参见 https://github.com/forcedotcom/phoenix。 

[5] 有 关 该 实现 的 详细 资料 ， 请 


+ 
& 


https:/ / github.com/hbase-trx/hbase-transactional-tableindexed 


+ 


见 http:/ /github.com/ykulbak/ihbase。 


3 5 X https:/ /github.com/mayanhui/hbase-secondary-index. 


10.6 布 隆 过 滤器 


布 隆 过 滤器 (Bloom Filter) 是 1970 年 由 布 隆 提 出 ， 实 际 上 是 一 个 很 长 的 二 进 制 向 量 和 一 系列 随机 映射 函数 。 布 隆 过 滤器 可 以 用 于 检索 一 个 元 素 是 否 在 一 个 集合 中 。 它 的 优点 是 空间 效率 和 查询 时 间 都 
远 远 超过 一 般 的 算法 ， 缺 点 是 有 一 定 的 误 识 别 率 和 删除 困难 。 


布 隆 过 滤 可 以 每 列 族 单 独 启 用 。 使 用 HColumnDescriptor.setBloomFilterType (NONEJROW|ROWCOL) 对 列 族 单独 启用 布 隆 。Default=NONE， 没 有 布 隆 过 滤 。 对 于 ROW， 行 键 的 哈 希 在 每 次 插 
入 行 时 将 被 添加 到 布 隆 。 对 于 ROWCOL， 行 键 + 列 族 + 列 族 修饰 的 哈 希 将 在 每 次 插入 行 时 添加 到 布 隆 。 


10.6.1 基本 概念 


如 果 想 要 判断 一 个 元 素 是 不 是 在 一 个 集合 里 ， 一 般 想 到 的 是 将 所 有 元 素 保存 起 来 ， 然 后 通过 比较 确定 。 链 表 、 树 等 数据 结构 都 基于 这 种 思路 。 但 是 随 着 集合 中 元 素 地 增加 ， 需 要 的 存储 空间 越 来 越 大 ， 


样 只 要 看 看 这 个 点 是 不 是 1 就 可 以 知道 集合 中 有 没有 它 了 。 这 就 是 布 隆 过 滤器 的 基本 思想 。 


Hash 面 临 的 问题 就 是 冲突 。 假 设 Hash 函 数 是 良好 的 ， 如 果 我 们 的 位 阵列 长 度 为 m 个 点 ， 那 么 如 果 我 们 想 将 冲突 率 降低 到 例如 1%， 这 个 散 列表 就 只 能 容纳 m/100 个 元 素 。 显 然 这 就 不 叫 空间 效率 
(space-efficient) 了 。 解 决 方法 也 简单 ， 就 是 使 用 多 个 Hash， 如 果 有 一 个 元 素 未 命中 ， 那 肯定 就 不 在 ; 如 果 它 们 都 命中 ， 不 一 定 存在 ， 虽 然 也 有 一 定 可 能 性 与 实际 情况 不 符 ， 但 是 这 种 情况 的 概率 比较 
低 。 图 10-4 和 图 10-5 分 别 表示 未 命中 和 可 能 命中 的 情况 。 


hbase 
hadoop 
hive 
apache 
hdfs 
mapreduce 
sqoop 
zookeeper 


| Definitely not there. 


图 10-4 ”未 命中 的 情况 


hbase 
hadoop 


hive 
apache 
hdfs ‘hive | Probably there. 


mapreduce 
sqoop 
zookeeper 


10-5 可 能 命中 的 情况 


10.6.2 ”配置 布 降 过 滤器 
布 降 过 滤器 所 有 的 相关 配置 在 hbase-site.xml 中 配置 ，src/main/resources/hbase-default.xml 文 件 中 的 配置 项 是 默认 配置 ， 下 面 介绍 相关 的 配置 。 


(1) hbase.hash.type 


Hash 函 数 使 用 的 哈 希 算法 。 可 以 选择 两 个 值 : murmur (MurmurHash) 和 jenkins (JenkinsHash) ， 这 个 Hash 用 于 布 隆 过 滤器 ， 默 认 值 是 murmur。 


(2) io.storefile.bloom.block.size 


布 隆 过 滤器 的 单个 块 大 小 。 该 值 是 估计 值 ， 默 认 是 131072 字 节 (128KB) 。 
(3) hfile.block.bloom.cacheonwrite 
确保 cache-on-write 开 启 ， 默 认 false (不 开启 ) 。 写 发 生 时 布 隆 过 滤器 能 及 时 缓存 该 信息 。 
人 注意 ”下面 的 配置 是 0.20.5 版 本 中 的 ， 但 后 续 版 本 已 经 不 使 用 这 些 配置 。 
“ 全 局 开关 : io.hfile.bloom.enabled 是 当 出 错时 的 一 个 Ki 开关，Default=true。 
: 错误 率 : io.hfile.bloom.error'rate 是 平均 误 报 率 (average false positive rate) ， 默 认为 1%。 
CK dE: io.hfile.bloom.max.fold 是 保证 最 小 折 登 速率 (guaranteed minimum fold rate) ， 大 多 时 候 不 需要 处 理 。Default=7， 或 压缩 到 原来 大 小 的 至 少 1/128。 


关于 上 述 配置 的 详情 请 参见 https:/ /issues.apache.org/jira/browse/HBASE-1200。 


10.6.3 ”使 用 布 隆 过 滤器 


使 用 布 隆 过 滤器 ， 只 需要 在 创建 表 的 时 候 设置 即 可 。 因 为 布 隆 过 滤器 是 列 族 的 属性 ， 所 以 针对 需要 设置 布 隆 过 滤器 的 列 族 添加 BLOOMFILTER= >'ROW' 属 性 ， 根 据 需求 设置 选用 哪 种 布 隆 过 滤器 。 代 码 
示例 如 下 所 示 : 


create 'test', (NAME => 'attr', DATA BLOCK ENCODING => 'NONE', BLOOMFILTER => 
'ROW', REPLICATION SCOPE => '0', VERSIONS => '2147483647', COMPRESSION => 
'LZO', MIN VERSIONS => '0', TTL => '2147483647', KEEP DELETED CELLS => 
'false', BLOCKSIZE => '65536', IN MEMORY => 'false', ENCODE ON DISK => 
'true', BLOCKCACHE => 'true'] B mn 


当然 ， 如 果 之 前 创建 表 的 时 候 没 有 设置 布 隆 过 滤器 属性 ， 也 可 以 通过 Alter 的 方式 修改 列 族 属性 。 不 过 在 修改 该 属性 之 前 需要 先 将 表 下 线 。 下 面 的 代码 展示 了 如 何 使 用 Alter 修 改 表 的 布 隆 过 滤器 属性 的 整 
个 过 程 。 


hbase (main) : 011: 0» disable 'test' 

0 row (s) in 2.3840 seconds 

hbase (main) : 012: 0» alter 'test', (NAME-»'attr', BLOOMFILTER-»'ROWCOL!]) 

Updating all regions with the new schemahttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
1/1 regions updated. 

Done. 


0 row (s) in 1.4910 seconds 
hbase (main) : 013: 0» enable 
0 row (s) in 3.4960 seconds 
hbase (main) : 014: 0» describe 'test' 
DESCRIPTION ENABLED 'test', {NAME => 'attr', o] - ] 
BLOOMFILTER => 'ROWCOL', true REPLICATION SCOPE => '0', 
'2147483647', COMPRESSION => 'LZO', MIN VER SIONS => '0', 
'2147483647', KEEP DELETED CELLS => 'false', BLOCKSIZE => ' 
IN MEMORY => 'false', ENCODE ON DISK => 'true', 
1 row (s) in 0.1290 seconds 


'test' 


10.7 ”负载 均衡 


负载 均衡 是 计算 机 网 络 领域 的 一 个 专业 术语 ， 该 术语 在 分 布 式 系统 领域 应 


DATA BLOCK ENCODING => 
VERSIONS => 
TTL => 


'NONE', 


65536', 


BLOCKCACHE => 'true') 


户 请 求 需要 负载 均衡 技术 ， 其 实在 HBase 很 早 的 版 本 中 已 经 实现 


非常 广泛 。 对 于 HBase 来 讲 ， 不 同 节点 (RegionServer) 上 


了 负载 均衡 ，0.92 版 本 后 HBase 的 均衡 算法 可 以 通过 实现 了 LoadBalancer 接 


的 hbase.master.loadbalancer.class 来 


认为 这 样 的 实现 是 最 简洁 、 高 效 的 ， 能 够 满足 绝 大 部 分 的 需求 。 接 下 来 将 介绍 三 种 负载 均衡 计划 的 原理 和 应 


10.7.1 全 局 计划 


全 


局 计划 是 最 常 


< 均衡 负载 开关 balanceSwitch 关 闭 。 

- HMaster 未 完成 初始 化 操作 。 

< RIT 中 有 未 处 理 完 的 Region。 

- 有 正在 处 理 的 Dead RegionServer。 
RegionServer 上 的 平均 Region 数 量 小 于 等 于 1。 
1. 算 法 流程 


1) 两 个 有 效 参 数 : MIN=floor (average) (表示 下 | 


等 


2) 循环 过 载 机 器 ， 将 Region 卸 载 到 MAX 数 量 ， 在 小 


^ 


R) 和 MAX=ceiling (average) 


场景 ， 以 及 如 何 手动 控制 集群 


的 负载 均衡 ， 它 贯穿 在 整个 集群 的 平稳 运行 期 内 ， 负 载 均衡 以 特定 时 间 间 隔 (hbase.balancer.period 默 认 是 5 分 钟 ) 执行 。 但 是 ， 当 遇 到 如 下 场景 时 不 进行 全 


(表示 上 限 ) 。 


MAX 时 停止 排序 Region (按时 间 新 旧 ) 。 


3) 遍历 最 轻 负载 机 器 ， 分 配 Region 直 到 Server 达 到 MIN 值 。 在 大 了 


= 于 J 


等 于 neededRegions ( 轻 负载 机 器 的 数量 ) 时 停止 。 可 能 我 们 分 配 了 御 载 的 Region 到 轻 负 载 机 器 ， 但 是 仍然 有 Region 没 有 分 配 出 去 ， 这 种 情况 下 ， 本 步骤 完成 ， 在 下 


4) 如 果 neededRegions 是 非 零 的 值 ， 遍 历 负载 最 如 


5 


^ 
EJ 


7) 所 有 Server 的 Region 数 量 是 MAX 或 者 MIN ， 另 外 ， 所 有 大 了 


2. 算 法 举例 分 析 


下 面 通过 一 个 特定 的 场景 进行 算法 分 析 ， 假 定 整个 集群 中 总 共存 在 3 台 RegionServer， 每 台 RegionServer 的 负载 如 下 | 


RegionServer1 


A 


载 如 


10-7 所 示 。 


D 


定义 。HBase 通 过 Region 数 量 实现 简单 的 负载 均衡 ， 
的 负载 均衡 。 


里 


虽然 这 种 方式 比较 简单 ， 但 官方 


局 负载 均衡: 


MIN 时 停止 。 这 些 Region 都 是 之 前 卸载 的 。 可 能 没有 足够 地 卸载 Region 让 轻 负载 的 机 器 达到 MIN 值 ， 如 果 这 样 ， 在 Region 数 


的 机 器 ， 从 每 台 机 器 上 外 载 一 个 Region， 使 得 它们 的 值 从 MAX 到 MIN。 
现在 有 很 多 Region 等 待 分 配 ， 遍 历 最 轻 的 负载 机 器 (多 台 ) ， 分 配 Region 到 MIN。 


6) 如 果 仍 然 有 Region 没 有 分 配 ， 遍 历 最 轻 的 负载 机 器 (多 台 ) ， 这 次 分 配 Region 到 MAX。 


10-6 所 示 。 


RegionServer2 


图 10-6 ”初始 化 集群 负载 情况 


的 步骤 中 再 做 处 理 。 


H 


MAX 的 Server 保 证 在 均衡 完成 后 都 是 MAX 个 Region。 从 而 保证 Region 移 动 的 最 小 数量 。 


其 中 ， 轻 负载 指 的 是 Region 数 量 小 于 等 于 AVG， 过 载 指 大 于 等 于 AVG， 所 有 的 RegionServer 都 按照 负载 从 大 到 小 排序 ， 存 放 在 TreeMap 中 (保证 先 遍历 过 载 Server) 。 
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RegionServer3 


现在 需要 进行 负载 均衡 ， 这 时 HMaster 已 经 拥有 了 所 有 RegionServer 的 负载 情况 ， 首 先 计算 整个 集群 中 所 有 负载 的 Region 总 量 numRegions， 并 把 这 些 Region 按 照 负 载 的 情况 进行 排序 ， 排 序 后 负 


numRegions = 50 


nau 


RegionServer2 RegionServer1 


RegionServer3 


图 10-7 ”排序 后 集群 负载 情况 
2) 计算 每 个 RegionServer 需 要 承载 的 Region 的 平均 值 : 


Average = numRegions/numServers = 16.7 


计算 是 否 需要 进行 负载 均衡 的 阔 值 ，slop 默 认 的 值 是 0， 这 相当 于 对 average 做 ceil 和 floor 运 算 : 


floor = Math.floor (average * (1 - slop) ) 
ceiling = Math.ceil (average * (1 + slop) ) 


判定 如 果 集群 中 负载 的 最 小 值 大 于 floor， 并 且 最 大 值 小 于 ceil， 这 时 直接 返回 不 需要 进行 负载 均衡 。 


3) 计算 每 个 RegionServer 需 要 承载 的 Region 的 最 大 值 和 最 小 值 ， 其 实 也 就 相当 于 对 average 取 ceil 和 floor 操 作 : 


min = numRegions/numServers = 16 
max = numRegionssnumServers == 0? min, min+1 = 17 


4) 从 负载 最 大 的 RegionServer 开 始 遍历 (此 时 是 RegionServer3) ， 如 果 找 到 一 个 RegionServer 的 负载 小 于 等 于 上 面 计算 的 max (17) 停止 ， 如 果 当 前 的 rs 的 负载 量 比 max 大 ， 这 时 变量 
serversOverloaded+ + ， 随 机 打 乱 该 rr 上 的 Region (类 似 于 洗 牌 shuffle 算 法 ) ， 计 算 需要 从 该 RegionServer 上 转移 的 Region 的 数量 。 


numToOffload = Math.min (regionCount - max, regions.size () ) 


然后 从 该 RegionSserver 中 的 Region 中 转移 numToOffload 个 Region (并 没有 完成 实际 转移 ， 这 里 仅仅 生成 了 转移 的 计划 ， 使 用 类 RegionPlan 表 示 ， 并 且 只 设置 了 转移 的 源 地 址 ， 目 的 地 址 这 时 并 未 设 


置 ) 。 此 时 的 集群 负载 情况 如 图 10-8 所 示 。 


RegionServer2 RegionServer1 RegionServer3 


图 10-8 ”摘除 过 载 Region 后 集群 负载 情况 
regionsToMove 变 量 中 保存 了 RegionServer3 中 的 12 个 Region 的 信息 ， 设 置 源 地 址 是 RegionServer3， 但 是 目的 地 址 暂时 未 知 。 


5) 从 负载 最 小 的 RegionServer 开 始 遍 历 (此 时 是 RegionServer2) ， 如 果 找 到 一 个 负载 比 上 面 计算 的 min 大 的 RegionServer 则 停止 ; 如果 当前 的 RegionServer 的 负载 量 比 min 小 ， 这 时 就 可 以 为 第 4 步 
中 没有 设置 目的 地 址 RegionPlan 设 置 目的 地 址 。 并 且 这 里 同时 统计 出 了 是 否 存 在 饥饿 RegionServer (也 就 是 RegionServer 上 Region 数 量 没有 达到 min) 。 运 行 完 成 之 后 ， 集 群 中 已 经 不 存在 没有 设置 
RegionPlan 目 的 地 址 了 。 此 时 集群 情况 如 图 10-9 所 示 。 


RegionServer2 RegionServer1 RegionServer3 


图 10-9 一 次 迁移 后 集群 负载 情况 


6) 检查 当前 是 否 已 经 完成 负载 均衡 的 工作 ， 也 就 是 所 有 的 RegionPlan 是 否 全 部 设置 了 目的 地 址 ， 如 果 已 经 全 部 分 配 了 目的 地 址 ， 这 时 集群 的 负载 均衡 工作 已 经 完成 。 


7) 如 果 第 6 步 没有 返回 的 话 ， 这 时 表明 还 有 RegionPlan 未 分 配 移动 的 目的 地 址 ， 这 时 ， 首 先 检查 第 5 步 中 是 否 存在 饥饿 RegionServer， 如 果 存 在 ， 这 时 同样 是 从 负载 最 高 的 RegionServer 遍 历 ， 从 每 个 
RegionServer 中 摘除 一 个 Region， 直 到 满足 能 够 将 饥 馈 RegionServer 填 饱 为 止 。 当然， 上 面 的 例子 将 不 会 出 现 这 种 情况 。 


8) 如 果 这 时 还 存在 需要 移动 的 Region 没 有 安排 目的 地 址 ， 按 照 负 载 从 小 到 大 的 顺序 遍历 RegionServer， 如 果 遍 历 的 RegionServer 承 载 的 Region 数 量 不 满 max 个 ， 这 时 就 能 够 设置 Region 的 目的 地 址 
10-10 所 示 。 


为 该 RegionServer， 该 遍历 的 终止 条 件 是 该 RegionServer 上 的 Region 数 量 大 于 等 于 max。 最 终 集 群 负载 均衡 完成 后 的 情况 如 图 


图 10-10 ”集群 最 终 负 载 情 况 


3. 配 置 参数 
hbase.balancer.period 是 设 定 负载 均衡 的 参数 ， 默 认为 每 5 分 钟 (300000 毫 秒 ) 运行 一 次 ， 参 数 配置 通过 hbase-site.xml 文 件 。 具 体 的 设置 格式 如 下 : 


«property» 
«name»hbase.balancer.period«/name» 
«value»300000«/value» 
«description»Period at which the region balancer runs in the Master. 
«/description» 

</property> 


10.7.2 ”随机 分 配 计 划 
计划 ， 也 包含 随机 分 配 计 划 ， 即 immediateAssignment。 用 于 新 加 入 的 Regionserver， 随 机 分 配 Region。 随 机 函数 使 用 


org.apache.hadoop.hbase.master.DefaultLoadBalancer 类 中 不 仅 包含 全 局 
java.util.Random 类 实现 。 其 代码 如 下 : 


public Map<HRegionInfo, ServerName> immediateAssignment ( 
List«HRegionInfo» regions, List<ServerName> servers) { 
Map«HRegionInfo, ServerName» assignments = 
new TreeMap«HRegionInfo, ServerName» () ; 


for (HRegionInfo region : regions) { 
assignments.put (region, servers.get (RANDOM.nextInt (servers.size () ) ) ); 


return assignments; 


} 


10.7.3 ”批量 启动 分 配 计划 
顾名思义 ， 批 量 启动 分 配 计划 应 用 于 集群 启动 时 ， 决 定 Region 分 配 到 哪 台 机 器 ，org.apache.hadoop.hbase.master.DefaultLoadBalancer 类 中 包含 两 种 批量 启动 分 配 计划 : 
. retainAssignment; 留存 分 配 。 尝 试 使 用 META 中 的 分 配 信息 ， 有 分 配 信息 的 按照 原 有 分 配 信息 分 配 Region， 剩 下 的 Region 随 机 分 配 。 


: roundRobinAssignment: 循环 分 配 。 使 用 floor (avg) 和 ceiling (avg) 重新 分 配 Region。 


10.74 ”通过 Shell 控 制 负载 均衡 


在 HBase shell 中 ， 使 用 balance_switch 和 balancer 手 动 控制 集群 的 负载 均衡 。 当 维护 或 者 重启 一 个 RegionServer 时 ， 会 关闭 负载 均衡 ， 使 得 Region 在 RegionServer 上 的 分 布 不 均 ， 此 时 需要 手工 开启 
负载 均衡 。balance_switch 用 于 开启 负载 均衡 功能 ，balancer 用 于 调用 负载 均衡 类 ， 实 现 负载 均衡 ， 输 出 结果 为 true 表 示 “ 负 载 均衡 ”已 经 被 成 功 触发 ， 并 在 后 台 执 行 。 下 面 的 代码 展示 的 是 实际 操作 过 
程 : 


hbase (main) : 016: 0> balance switch 
ERROR: wrong number of arguments (0 for 1) 
Here is some help for this command: 
Enable/Disable balancer. Returns previous balancer state. 
Examples: 

hbase» balance switch true 

hbase» balance switch false 
hbase (main) : 017: 0» balance switch true 
true 
0 row (s) in 0.0080 seconds 
hbase (main) : 018: 0» balancer 
true 
0 row (s) in 0.0070 seconds 


10.8 批量 加 载 


HBase 有 好 几 种 方法 将 数据 装载 到 表 ， 最 直接 的 方式 既 可 以 通过 MapReduce 任 务 ， 也 可 以 通过 普通 客户 端 API。 但 是 这 些 都 不 是 高 效 方法 。 批 量 加 载 特性 采用 MapReduce 任 务 ， 将 表 数 据 输 出 为 
HBase 的 内 部 数据 格式 ， 然 后 可 以 将 产生 的 存储 文件 直接 加 载 到 运行 的 集群 中 ， 这 种 方式 比 简单 使 用 HBase API 消 耗 更 少 的 CPU 和 网 络 资源 。 


HBase 批 量 加 载 过 程 包 含 两 个 主要 步骤 ， 下 面具 体 介绍 。 


10.8.1 ”准备 数据 : importtsv 


从 MapReduce 任 务 通 过 HFileOutputFormat 产 生 HBase 数 据 文件 (StoreFiles) 。 输 出 数据 为 HBase 的 内 部 数据 格式 ， 以 便 随后 加 载 到 集群 更 高 效 。 


为 了 处 理 高 效 ，HFileOutputFormat 必 须 配置 为 每 个 HFile 适 合 在 一 个 分 区 内 。 为 了 做 到 这 一 点 ， 输 出 将 被 批量 装载 到 HBase 的 任务 ， 使 用 Hadoop 的 TotalOrderPartitioner 类 来 使 map 输 出 为 分 开 的 键 
空间 区 间 。 对 应 于 表 内 每 个 Region 的 键 空 间 。HFileOutputFormat 包 含 一 个 方便 的 函数 configurelncrementalLoad () ， 该 函数 可 以 基于 表 当 前 分 区 边界 自动 设置 TotalOrderPartitioner。 


Importtsv 或 者 自己 写 的 MapReduce 程 序 都 可 以 完成 该 部 分 工作 。 其 中 ，importtsv 是 HBase 自 带 的 工具 ， 只 针对 tsv 格 式 的 数据 ， 其 使 用 方法 如 下 : 


SHADOOP HOME/bin/hadoop jar $HBASE HOME/hbase- 

0.94.0.jar importtsv V T 
-Dimporttsv.bulk.output=/user/hbase/output \ 
-Dimporttsv.columns-HBASE ROW KEY, t: vOl, t: v02, t: v03, t: v04, 
t: v05, t: v06, t: v07, t: v08, t: v09, t: v10, t: vll, t: v12 \ 
hbase test V 

/user/hbase/input 


Importtsv 命 令 中 有 很 多 参数 ， 为 了 了 解 每 个 参数 的 含义 ， 执 行 命名 提示 信息 如 下 : 


bin/hadoop jar hbase-0.94.0.jar importtsv 

Warning:  $HADOOP HOME is deprecated. 

ERROR: Wrong number of arguments: 0 

Usage: importtsv -Dimporttsv.columns-a, b, c «tablename» «inputdir» 

Imports the given input directory of TSV data into the specified table. 

The column names of the TSV data must be specified using the -Dimporttsv.columns 

option. This option takes the form of comma-separated column names, where each 

column name is either a simple column family, or a columnfamily: qualifier. The special 

column name HBASE ROW KEY is used to designate that this column should be used 

as the row key for each imported record. You must specify exactly one column 

to be the row key, and you must specify a column name for every column that exists in the 

input data. Another special column HBASE TS KEY designates that this column should be 

used as timestamp for each record. Unlike HBASE ROW KEY, HBASE TS KEY is optional. 

You must specify atmost one column as timestamp key for each imported record. 

Record with invalid timestamps (blank, non-numeric) will be treated as bad record. 

Note: if you use this option, then 'importtsv.timestamp' option will be ignored. 

By default importtsv will load data directly into HBase. To instead generate 

HFiles of data to prepare for a bulk data load, pass the option: 
-Dimporttsv.bulk.output-/path/for/output 
Note: if you do not use this option, then the target table must already exist in HBase 

Other options that may be specified with -D include: 
-Dimporttsv.skip.bad.lines-false - fail if encountering an invalid line 
'-Dimporttsv.separator-|' - eg separate on pipes instead of tabs 
-Dimporttsv.timestamp-currentTimeAsLong - use the specified timestamp for the import 
-Dimporttsv.mapper.class-my.Mapper - A user-defined Mapper to use instead of 

org.apache.hadoop.hbase .mapreduce.TsvImporterMapper 

For performance consider the following options: 
-Dmapred.map.tasks.speculative.execution-false 
-Dmapred.reduce.tasks.speculative.execution-false 


其 中 ， 最 关键 的 参数 有 3 个 ， 分 别 是 : 
- -Dimporttsv.columnsza, b, c: 表 字 段 ， 文 件 内 字段 顺序 和 此 处 保持 一 致 ， 字 段 中 要 指定 列 族 和 列 (分 隔 符 是 冒号 ) ， 例 如 ，HBASE_ROW_KEY，tv01，tv02。 
: 对 应 的 加 载 数据 的 目的 地 ，HBase 表 名 称 。 


oi 原始 数据 的 路 径 位 置 ， 应 该 是 HDFS 路 径 。 


10.8.2 ”加 载 数据 : completebulkload 


在 HFileOutputFormat 输 出 数据 之 后 ， 使 用 completebulkload 将 数据 加 载 到 HBase 集 群 中 。Completebulkload 是 命令 行 工 具 ， 会 遍历 所 有 数据 文件 ， 每 个 文件 对 应 一 个 Region。 之 后 连接 相应 的 
RegionServer， 将 文件 移动 到 相应 的 存储 文件 目录 ， 使 得 数据 对 外 是 可 用 状态 。 


如 果 在 批量 加 载 准备 过 程 中 ，Region 的 边界 已 经 改变 ，completebulkload 工 具 会 自动 将 数据 文件 划分 成 符合 新 Region 边 界 的 分 片 。 该 处 理 过 程 不 是 最 优 的 ， 所 以 用 户 需要 缩减 准备 数据 和 加 载 数据 之 
间 的 时 间 间 隔 。completebulkload 工 具 的 使 用 方法 如 下 所 示 。 


SHADOOP HOME/bin/hadoop jar $HBASE HOME/hbase- 
0.94.0.3ar completebulkload V B 
/user/hbase/output \ 

hbase test 


109 本章 小 结 


任何 一 个 新 框架 不 能 “落地 ”都 是 空谈 ， 都 不 会 有 持久 的 生命 力 。 本 章 中 介绍 的 内 容 都 是 HBase“ 落 地 ”的 关键 特性 ， 虽 然 章 名 是 “HBase 高 级 特性 ”， 但 对 于 应 用 开发 人 员 来 讲 , 属 于“ 一般” 应 


， 只 有 熟练 掌握 了 本 章 内 的 应 用 ， 才 能 “由 点 到 面 ”， 将 整个 系统 盘活 ， 所 以 本 章 的 内 容 需 要 读者 细致 、 深 入 、 熟 练 掌握 。 


另外 ， 本 章 内 容 侧重 于 实践 操作 ， 没 有 深入 讲解 原理 性 内 容 ， 读 者 可 以 根据 自己 的 兴趣 和 需求 ， 借 助 其 他 资料 补充 学 习 。 例 如 ， 过 滤器 、 计 数 器 使 用 ， 批 量 加 载 操作 ， 布 隆 过 滤器 配置 等 。 


第 11 章 集群 运 维 管理 


本 章 将 


=I 


证 。 系 统 运 维 ， 特 别 是 分 布 式 系统 ， 类 似 Hadoop、HBase， 是 一 项 难度 大 、 知 识 面 广 、 挑 战 性 强 的 工作 ， 并 不 是 说 介绍 完 可 以 使 用 的 工 


理 ， 还 需要 读者 点 点 滴 滴 地 积累 ， 不 断 地 学 习 和 总 结 ，“ 聚 沙 成 塔 、 集 腋 成 裴 ” 才 是 王道 。 


11.1 HBase 常 用 工具 


HBase 自 带 的 很 多 工具 可 用 于 管理 、 分 析 、 修 复 和 调试 等 方面 ， 这 些 工具 一 部 分 的 入 口 是 在 HBase Shell 客 户 端 ， 另 一 部 分 在 HBase 的 JAR 包 中 。 下 


四 


在 后 面 的 内 容 中 会 详细 介绍 如 何 使 用 这 些 工具 。 


Y 
+ 


点 讲解 HBase 集 群 的 运 维 管 理 、 监 控 工具 和 故障 排除 ， 将 基本 涵盖 运 维 相关 的 各 个 方面 ， 从 实践 角度 诠释 每 个 工 
统 ， 包 括 监控 、 报 警 等 ， 全 面 介绍 如 何 运 用 工具 帮助 用 户 管理 集群 。 本 章 的 内 容 也 是 下 一 章 性 能 调 优 的 基础 。 


前 面 章节 的 介绍 都 是 围绕 着 HBase 使 用 这 条 主线 展开 ， 即 一 般 用 户 角度 ， 本 章 从 管理 员 角 度 阐述 如 何 针对 性 地 管理 HBase 集 群 。 任 何 一 个 系统 ， 运 维 都 占据 相 


的 安装 、 部 署 和 使 用 ， 并 且 结合 业内 非常 成 熟 、 优 秀 、 广 受 欢迎 的 开源 系 


要 的 位 置 ， 它 是 系统 稳定 运行 的 保 


运行 命令 9{HBASE_HOMEMbin/hbase shell 会 得 到 下 面 的 帮助 提示 ， 这 些 提示 的 入 口 是 HBase Shell 客 户 端 。 


或 常见 故障 的 排除 方法 ， 读 者 就 可 以 非常 好 地 掌握 集群 的 运 维 管 


的 代码 示例 分 别 罗 列 了 两 个 不 同 入 口 所 包含 的 工 


imi 


Usage: hbase «command» 
where «command» an option from one of these categories: 


DBA TOOLS 
shell run the HBase shell 
hbck run the hbase 'fsck' tool 
hlog write-ahead-log analyzer 
hfile store file analyzer 
zkcli run the ZooKeeper shell 
PROCESS MANAGEMENT 
master run an HBase HMaster node 
regionserver run an HBase HRegionServer node 
zookeeper run a ZooKeeper server 
rest run an HBase REST server 
thrift run the HBase Thrift server 
thrift2 run the HBase Thrift2 server 
avro run an HBase Avro server 
PACKAGE MANAGEMENT 
classpath dump hbase CLASSPATH 
version print the version 
or 
CLASSNAME run the class named CLASSNAME 


Most commands print help when invoked w/o parameters. 


i&f7$(HADOOP HOMEJ/bin/hadoop jar hbase-0.94.*jar 命 令 会 得 到 下 面 的 输出 提示 ， 这 些 提 示 的 入 


An example program must be given as the first argument. 
Valid program names are: 
CellCounter: Count cells in HBase table 
completebulkload: Complete a bulk data load. 
copytable: Export a table from local cluster to peer cluster 
export: Write table data to HDFS. 
import: Import data written by Export. 
importtsv: Import data in TSV format. 
rowcounter: Count rows in HBase table 
verifyrep: Compare the data from tables in two different clusters. WARNING: 
It doesn't work for incrementColumnValues'd cells since the timestamp is 
changed after being appended to the log. 


11.1.1 ”文件 检测 修复 工具 hbck 


是 HBase 的 JAR 包 。 


hbck 工 具 用 于 HBase 底 层 文 件 系统 的 检测 和 修复 ， 是 非常 常用 的 一 个 工具 。hbck 可 以 检测 Master、RegionServer 内 存 中 的 状态 以 及 HDFS 上 面 数据 的 状态 之 间 的 一 致 性 、 黑 洞 问题 ， 定 位 元 数据 的 不 


一 致 问题 ， 并 且 具 有 多 种 修复 方式 。 下 面 的 代码 是 运行 hbck 的 帮助 选项 的 输出 信息 。 


bash-3.2$ hbase hbck -help 
Usage: fsck [opts] (only tables) 
where [opts] are: 
-help Display help options (this) 
-details Display full report of all regions. 
-timelag «timeInSeconds» Process only regions that have not experienced 
any metadata updates in the last  «timeInSeconds» seconds. 
-sleepBeforeRerun «timeInSeconds» Sleep this many seconds before checking if 
the fix worked if run with -fix 
-summary Print only summary of the tables and status. 
-metaonly Only check the state of ROOT and META tables. 
-sidelineDir «hdfs: //» HDFS path to backup existing meta and root. 


Metadata Repair options: (expert features, use with caution! ) 

-fix Try to fix region assignments. This is for backwards compatiblity 
-fixAssignments Try to fix region assignments. Replaces the old -fix 

-fixMeta Try to fix meta problems. This assumes HDFS region info is good. 


-noHdfsChecking Don't load/check region info from HDFS. Assumes META region 
info is good. Won't check/fix any HDFS issue, e.g. hole, 
orphan, or overlap 

-fixHdfsHoles Try to fix region holes in hdfs. 

-fixHdfsOrphans Try to fix region dirs with no .regioninfo file in hdfs 


-fixTableOrphans Try to fix table dirs with no .tableinfo file in hdfs (online mode only) 


-fixHdfsOverlaps Try to fix region overlaps in hdfs. 
-fixVersionFile Try to fix missing hbase.version file in hdfs. 
-maxMerge «n» When fixing region overlaps, allow at most «n» regions to 
merge. (n=5 by default) 

-sidelineBigOverlaps When fixing region overlaps, allow to sideline big overlaps 
-maxOverlapsToSideline «n» When fixing region overlaps, allow at most «n» 

regions to sideline per group. (n=2 by default) 
-fixSplitParents Try to force offline split parents to be online. 
-ignorePreCheckPermission ignore filesystem permission pre-check 
-fixReferenceFiles Try to offline lingering reference store files 


Datafile Repair options: 
-checkCorruptHFiles 
-sidelineCorruptHfiles Quarantine corrupted HFiles. 

Metadata Repair shortcuts 


(expert features, use with caution! ) 
Check all Hfiles by opening them to make sure they are valid 
implies -checkCorruptHfiles 


-repair Shortcut for -fixAssignments -fixMeta -fixHdfsHoles -fixHdfsOrphans 
-fixHdfsOverlaps -fixVersionFile -sidelineBigOverlaps 
-fixReferenceFiles 

-repairHoles Shortcut for -fixAssignments -fixMeta -fixHdfsHoles 


从 上 面 的 信息 中 可 以 看 到 ，hbck 有 很 多 参数 选项 ， 下 面 介绍 各 选项 代表 的 含义 。 
常规 选项 如 下 : 

-help: 显示 帮助 选项 。 

“ -details: 显示 所 有 Region 的 完整 报告 。 

“ -timelag: 只 检测 最 近 秒 内 没有 元 数据 更 新 的 Region。 

“ -sleepBeforeRerun: 检测 之 前 先 停顿 一 段 时 间 ， 单 位 是 秒 。 

- -summary: 输出 表 和 状态 的 总 结 信息 。 
- -metaonly: 只 检测 -ROOT- 和 .META. 表 的 状态 。 

* -sidelineDir: 备份 现 有 -ROOT- 和 .META. 表 到 指定 的 HDFS 路 径 。 
所 有 的 修复 参数 选项 如 下 : 

“ -fx: 向 下 兼容 用 ， 被 -fxAssignments 替 代 。 

* -fxAssignments: 用 于 修复 Region 分 配 错误 。 

“ -fixMeta: 用 于 修复 .META. 表 的 问题 ， 前 提 是 HDFS 上 面 的 Region 信 息 有 并 且 正 确 。 
: -fixHdfsHoles: 修复 Region Holes (空洞 ， 即 菜 个 区 间 没 有 Region) 问题 。 

- -fixHdfsOrphans: 修复 Orphan Region (HDFS 上 面 没 有 .regioninfo 的 Region) 。 

- -fixHdfsOverlaps: 修复 Region Overlaps (KE) 问题 。 

' -fixVersionFile: 修复 缺失 hbase.version 文 件 的 问题 。 


- -maxMerge (n 默 认 是 5) : 当 Region 有 重 登 时 ， 需 要 合并 Region， 一 次 合并 的 Region 数 最 大 不 超过 这 个 值 。 


' -sidelineBigOverlaps: 当 修复 Region Overlaps 问 题 时 ， 允 许 跟 其 他 Region 重 司 次 数 最 多 的 一 些 Region 不 参与 (修复 后 ， 可 以 把 没有 参与 的 数据 通过 bulk load 加 载 到 相应 的 Region) o 


- -maxOverlapsToSideline (n 上 默认 是 2) : 当 修 复 Region Overlaps 问 题 时 ， 一 组 里 最 多 允许 多 少 个 Region 不 参与 。 


快捷 修复 元 数据 的 选项 如 下 : 
` repair: 相当 于 -fixAssignments-fixMeta-fixHdfsHoles-fixHdfsOrphans-fixHdfsOverlaps-fixVersionFile-sidelineBigOverlaps。 


' -repairHoles: 相当 于 -fixAssignments-fixMeta-fixHdfsHoles-fixHdfsOrphans。 


d 


.定位 不 一 致 性 


要 检查 HBase 集 群 是 否 有 文件 损坏 ， 运 行 hbck 获 取 的 输出 信息 如 下 : 


bash-3.2$ hbase hbck 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/ 
Summary: z 
-ROOT- is okay. 
Number of regions: 1 
Deployed on: node-128-91, 
.META. is okay. 
Number of regions: 1 
Deployed on: node-128-91, 
message user is okay. 
Number of regions: 4 
Deployed on: node-128-91, 60020, 1386228733111 node-128-92, 
1386228734948 node-128-93, 60020, 1386228753027 
message visitor is okay. 
Number of regions: 1 
Deployed on: node-128-91, 
movie fav user list is okay. 
Number of regions: 1 
Deployed on: node-128-93, 60020, 
movie fav visitor list is okay. 
Number of regions: 1 
Deployed on: node-128-91, 
test is okay. 
Number of regions: 1 
Deployed on: node-128-92, 
user is okay. 
Number of regions: 1 
Deployed on: node-128-93, 60020, 
user behavior attribute is okay. 
Number of regions: 1 
Deployed on: | node-128-92, 60020, 1386228734948 
user behavior attribute noregistered is okay. 
Number of regions: 1 
Deployed on: node-128-93, 
0 inconsistencies detected. 
Status: OK 


60020, 1386228733111 


60020, 1386228733111 


60020, 


60020, 


1386228733111 


1386228753027 


60020, 


1386228733111 


60020, 


1386228734948 


1386228753027 


60020, 1386228753027 


. http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ek 


复 报告 不 一 致 性 时 设置 报警 


命令 输出 结束 的 地 方 ， 会 输出 OK 或 显示 多 少 损坏 情况 出 现 。 但 是 因 
(使 


为 一 些 损坏 可 能 是 暂时 的 (如 集群 正 启动 或 


Nagios) 。 


还 可 以 添加 -details 参 数 查看 检测 的 详细 信息 ， 命 令 如 下 : 


区 域 正 分 裂 ) ， 可 以 多 次 运行 hbck 命 令 。 从 运 维 角度 来 说 ， 可 以 有 规律 运行 hbck 并 在 反 


bash-3.2$ hbase hbck -details 


2. 快 速 修复 元 数据 损坏 


使 用 快速 修复 元 数据 选项 是 解决 不 一 致 性 问题 风险 最 低 的 一 种 方法 。 其 包含 Region 一 致 性 修复 一 一 定位 单个 Region 修 复 ， 修 改 内 训 数 据 、ZooKeeper 数 据 和 .META. 表 空洞 。Region 一 致 性 需 
Region 在 HDFS 的 状态 信息 、Region 在 .META. 中 数据 、Region 部 署 / 分 配 信息 以 及 Master 相 关 信 息 等 维度 共同 决定 。 快 速 修 复 的 命令 有 两 个 ， 下 面 代 码 是 命令 的 使 用 方式 ， 详 细 了 解 请 参考 上 面 的 命令 解释 
部 分 。 


bash-3.2$ hbase hbck -repair 
bash-3.2$ hbase hbck -repairHoles 


3. 修 复 Region 圭 加 


表 的 完整 性 问题 可 能 涉及 修复 Region 的 到 加 。 该 操作 的 风险 系数 比较 高 ， 因 为 其 涉及 修改 文件 系统 。 在 使 用 该 项 相关 命令 之 前 需要 严谨 评估 对 风险 的 承受 力 。 使 用 该 命令 之 前 首先 应 该 使 用 hbase 
hbck-details 命 令 定 位 尝试 修复 的 数据 位 置 。 然 后 ， 执 行 修复 Region 笃 加 的 命令 ,命令 如 下 所 示 : 


bash-3.2$ hbase hbck -fixHdfsOrphans 
bash-3.2$ hbase hbck -fixHdfsOverlaps 


修改 文件 系统 有 两 个 方法 : 合并 Region 到 一 个 更 大 的 Region; 对 于 边线 的 Region 将 其 移动 到 “边线 ”目录 ， 稍 后 重新 存储 这 部 分 数据 。 合 并 成 更 大 的 Region 会 导致 合并 和 分 裂 操 作 ， 对 CPU 和 IO 资 
源 的 消耗 很 大 。 对 于 这 种 情况 ， 边 线 方式 具有 不 少 优势 。 下 面 的 选项 会 从 某 种 程度 上 保护 Region 赤 加 操作 ， 降 低 该 操作 带 来 的 风险 。 


+ -maxMerge 


* -sidelineBigOverlaps 


* -maxOverlapsToSideline 


这 些 参数 的 使 用 方法 如 下 : 


bash-3.2$ hbase hbck -fixHdfsOverlaps -maxMerge 3 
bash-3.2$ hbase hbck -fixHdfsOverlaps -sidelineBigOverlaps 
bash-3.2$ hbase hbck -fixHdfsOverlaps -maxOverlapsToSideline 4 


4http:;//www.hzcourse.com/resource/readBook?path - /openresources/teach ebook/uncompressed/14884/OEBPS/Text/..META. 没 有 正确 分 配 


如 果 .META. 表 的 Region 存 在 分 配 和 部 署 的 一 致 性 问题 ， 可 以 使 用 特殊 的 -fixMetaOnly 参 数 尝试 修复 分 配 ， 命 令 的 使 用 方式 如 下 : 


bash-3.2$ hbase hbck -fixMetaOnly -fixAssignments 


5. 版 本 文件 丢失 


HBase 文 件 系统 启动 的 时 候 ， 其 数据 需要 一 个 版 本 文件 (hbase.version) 。 如 果 该 版 本 文件 丢失 ， 可 以 使 用 下 面 的 命令 修复 : 


bash-3.2$ hbase hbck -fixMetaOnly -fixVersionFile 


6.-ROOT- 和 .META. 表 损坏 


最 严重 的 损坏 场景 是 -ROOT- 或 .META. 表 损坏 ，HBase 将 会 启动 失败 。 这 种 情况 可 以 使 用 OfflineMetaRepair 工 具 创建 新 的 -ROOT- 和 .META. 表 。 该 工具 假设 HBase 是 offline 的 ， 找 到 HBase 在 HDFS 的 
主 目 录 ， 加 载 Region 的 元 数据 文件 的 信息 ， 然 后 重新 创建 新 的 -ROOT- 和 .META. 表 数据 。 其 命令 的 使 用 方式 如 下 : 


bash-3.2$ hbase org.apache.hadoop.hbase.util.OfflineMetaRepair 


11.1.2 文件 查看 工具 hfile 


若 要 查看 文本 格式 HFile 的 内 容 ， 可 以 使 用 org.apache.hadoop.hbase.io.hfile.HFile 或 者 直接 使 用 HBase Shell 中 的 hfile 命 令 ， 接 下 来 的 内 容 着 重 讲解 Shell 方 式 。 下 面 的 代码 是 hbase hfile 命 令 的 帮助 
信息 : 


bash-3.2$ hbase hfile 
13/12/19 18: 28: 03 INFO util.ChecksumType: Checksum using org.apache.hadoop.util.PureJavaCrc32 


usage: HFile [-a] [-b] [-e] [-f <arg>] [-k] [-m] [-p] [-r <arg>] [-s] [-v] 
[-w <arg>] 
-a, --checkfamily Enable family check 
-b, --printblocks Print block index meta data 
-e, --printkey Print keys 
-f, --file «arg» File to scan. Pass full-path; e.g. 
hdfs: //a: 9000/hbase/.META. Fiza 
=k, --checkrow Enable row order check; looks for out-of-order 
keys 
-m --printmeta Print meta data of file 
-p» --printky Print key/value pairs 
-r, --region <arg> Region to scan. Pass region name; e.g. '.META., , 1' 
-s, --stats Print statistics 
-v, —verbose Verbose output; emits file and meta data 
delimiters 
-w, --seekToRow «arg» Seek to this row and print all the kvs for this 
row only 


如 果 想 查看 文件 /hbase/user test/459cafca3e58e43f09f2f56e2cb25085/bhvr/16bd7ee0ffae414b946b51f9a00deb1c 的 内 容 ， 使 用 下 面 的 命令 : 


bash-3.2$ hbase hfile -v -p -f /hbase/user test/459cafca3e58e43f09f2f56e2cb25085/bhvr/16bq7ee0ffae414b946b51f9a00deblc 


没有 输入 -v， 仅 仅 能 看 到 一 个 hfile 的 汇总 信息 ; -p 表 示 输 出 KeyValue 中 的 数据 信息 。 命 令 执行 结果 如 下 : 


13/12/19 18: 43: 33 INFO util.ChecksumType: Checksum using org.apache.hadoop. 
util.PureJavaCrc32 

Scanning -> /hbase/user test/459cafca3e58e43f09f2f56e2cb25085/bhvr/16bd7ee0ffae 
414b946b51f9a00deblc 


13/12/19 18: 43: 34 INFO hfile.CacheConfig: Allocating LruBlockCache with maximum 
size 773.4m 

13/12/19 18: 43: 34 ERROR metrics.SchemaMetrics: Inconsistent configuration. Previous 
configuration for using table name in metrics: true, new configuration: false 

13/12/19 18: 43: 34 INFO lzo.GPLNativeCodeLoader: Loaded native gpl library 

13/12/19 18: 43: 34 INFO lzo.LzoCodec: Successfully loaded & initialized native- 
lzo library [hadoop-lzo rev ccOcdbdae84224d5f11096d033c4e6e0324f231f6] 

13/12/19 18: 43: 34 INFO compress.CodecPool: Got brand-new decompressor 

K:  E0E25A96-6584-490C-B070-05EEEA9CB227/bhvr: FAV 159126/1387442141688/Put/vlei 


65/ts-0 V: ("time": 1387441998, "wid": "13", "aid": "1", "pid": "mobile", "fmt": "4"} 
K:  E0E25A96-6584-490C-B070-05EEEA9CB227/bhvr: FAV 59762/1387442141158/Put/vlen- 
65/ts-0 V: ("time": 1387441998, "wid": "13", "aid": "1", "pid": "mobile", "fmt": "4"} 


K:  E0E25A96-6584-490C-B070-05EEEA9CB227/bhvr: UFAV 159126/1387442141862/DeleteColumn/ 
vlen-0/ts-0 V: E 

K: E0E25A96-6584-490C-B070-05EEEA9CB227/bhvr: UFAV 59762/1387442141609/DeleteColumn/ 
vlen=0/ts=0 V: H 

Scanned kv count -> 4 


11.1.3 “WAL 日 志 查看 工具 hlog 


查看 WAL 日 志 可 以 通过 org.apache.hadoop.hbase.regionserverwal.HLog， 或 者 通过 HBase Shell 中 的 hlog 命 令 。 下 面 的 代码 是 Shell 中 hlog 命 令 的 帮助 信息 : 


bash-3.2$ hbase hlog 


usage: HLog <filenamehttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/14884/0EBPS/Text/...> [-h] [-j] [-p] [-r <arg>] [-s <arg>] [-w «arg 
-h, --help Output help message B 
-j» --json Output JSON 
-p» -—-printvals Print values 
-r, --region «arg» Region to filter by. Pass region name; e.g. 
' META., . 1" 
-s, --sequence «arg» Sequence to filter by. Pass sequence number. 
-w, --row <arg> Row to filter by. Pass row name. 


该 命令 只 用 于 查看 WAL 日 志文 件 ， 如 果 想 查看 日 志文 件 /hbase/.logs/hbase-regionserver-10，60020，1385026064136/hbase-regionserver-64%2C60020%2C1385026064136.1387402631969 的 
内 容 ， 使 用 下 面 的 命令 : 


bash-3.2$ hbase hlog -j /hbase/.logs/hbase-regionserver-10, 60020, 1385026064136/hbase-regionserver-64$2C60020$2C1385026064136.1387402631969 


-j 袁 示 和 输出 结果 是 json， 最 终 部 分 结果 输出 如 下 : 


[("region": "a035b5a23e4cff5ab1f67686c02b98af", "sequence": 8715160497, "table": 
"user behavior attribute", "actions": [(["timestamp": 1387402632000, "family": 
"bhvr", "qualifier" | 159958 27215 2", 


"row"; "135601920001391986", "vlen": 345]]), "region": 
"dca5534d29f025b9bd2f0b885e9f5ded", "sequence": 8715160496, "table": "user 
behavior attribute noregistered", W 

"actions"; [["timestamp": 1387402632851, "family": "METAFAMILY", "qualifier": "", 
"row"; "METAROW", "vlen": 17)]) "region": "f176a8cd5c71268e140368058305c2c9", 
"sequence": 8715160498, 

"table": "user behavior attribute", "actions": [("timestamp": 1387402633000, 

: "bhvr", 元 ifi : "M 215361 36699 2", "row": "135601920007548291", 
adb70680e74ada1988e93acf20f76583", 


"actions": [("timestamp": 1387402634, "family" "m", "qualifier": 
i : "135601920019614800 760052213", 
1387402634, "family": "m", 


"qualifier": "title", "row": "135601920019614800 760052213", "vlen": 36}, 
["timestamp": 1387402634, "f T 

amily": "m", "qualifier": "sub title", "row": "135601920019614800 760052213", 
"ylen": 36), "timestamp": 1387402634, "family": "m", "qualifier"; "type", 


"row": "135601920019614800 760052213", 

"ylen": 1), ("timestamp": 1387402634, "family": "m", "qualifier": "sub type", 
"row": "135601920019614800 760052213", "vlen": 1), ("timestamp": 1387402634, 
"family"; "m", "qualifier": "form type", 

"row": "135601920019614800 760052213", "vlen": 1), ("timestamp": 1387402634, 


"family": "m", "qualifier": "status", "row": "135601920019614800 760052213", 
"yle 1), ("timestamp": 1387402634, 

"family": "m", "qualifier": "text", "row": "135601920019614800 
760052213", "vlen": 480), ("timestamp": 1387402634, "family" "qualifier": 
"from", "row": "135601920019614800 760052213", 


"ylen": 3}]}, "region": "£176a8cd5c71268e14036805d305c2c9", 
"sequence": 8715160500, "table": "user behavior attribute" 
[("timestamp": 1387402634000, "family": "bhvr", " M 105070 13716 2", 
"row": "135601920007465920", "vlen": 352}]},  ("region": 'Ac3f143a8e5a6c9f4d5baad817dd7b6a", 
"sequence": 8715160501, "table": "user behavior attribute", 
"actions": [("timestamp": 1387402634000, "family": ` 
"bhvr", "qualifier": "M 766111 92717 2", "row": "135601920009421616", "vlen": 359}] }， 
http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/. .http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ek 


"actions": 


当然 ，hlog 命 令 还 有 其 他 的 参数 ， 例 如 -p 表 示 输 出 所 有 值 ，-r 可 以 指定 Region 名 称 ，-w 指 定 行 键 等 。 


11.1.4 ”压缩 测试 工具 CompressionTest 


HBase 有 一 个 用 来 测试 压缩 的 工具 : hbase org.apache.hadoop.hbase.util.CompressionTest。 该 工具 可 以 检测 压缩 文件 是 否 损 坏 。 命 令 的 使 用 和 运行 结果 如 下 所 示 。SUCCESS 表 示 LZO 格 式 的 文 
件 /tmp/test_part-00000.lzo 是 正常 的 。 


bash-3.2$ hbase org.apache.hadoop.hbase.util.CompressionTest /tmp/test part- 
00000.1zo lzo 

13/12/19 19: 08: 29 INFO util.ChecksumType: Checksum using org.apache.hadoop. 
util.PureJavaCrc32 

13/12/19 19: 08: 29 DEBUG util.FSUtils: Creating file-/tmp/vv 20131219 05 part- 
00000.1zo with permission-rwxrwxrwx 

13/12/19 19: 08: 29 INFO util.FSUtils: FileSystem doesn't support getDefaultReplication 

13/12/19 19: 08: 29 INFO util.FSUtils: FileSystem doesn't support getDefaultBlockSize 

13/12/19 19: 08: 29 ERROR metrics.SchemaMetrics: Inconsistent configuration. Previous 
configuration for using table name in metrics: true. new configuration: false 

13/12/19 19: 08: 29 WARN metrics.SchemaConfigured: Could not determine table and column 
family of the HFile path /tmp/vv 20131219 05 part-00000.1zo. Expecting at 
least 5 path components. 

13/12/19 19: 08: 29 INFO lzo.GPLNativeCodeLoader: Loaded native gpl library 

13/12/19 19: 08: 29 INFO lzo.LzoCodec: Successfully loaded & initialized native- 
lzo library [hadoop-lzo rev ccOcdbdae84224d5f11096d033c4e6e0324f231f6] 

13/12/19 19: 08: 29 INFO compress.CodecPool: Got brand-new compressor 

13/12/19 1 : 29 DEBUG hfile.HFileWriterV2:  Initialized with CacheConfig: disabled 

13/12/19 19: : 30 WARN metrics.SchemaConfigured: Could not determine table and 
column family of the HFile path /tmp/vv 20131219 05 part-00000.1zo. Expecting 
at least 5 path components. 

13/12/19 19: 08: 30 INFO compress.CodecPool: Got brand-new decompressor 

SUCCESS 


11.1.5 “数据 迁移 工具 CopyTable 


CopyTable 是 用 于 在 同 集群 内 部 或 者 集群 之 间 复 制 表 的 部 分 或 者 全 部 数据 的 工具 。 集 群 内 和 集群 间 的 复制 ， 区 别 在 于 --peer.adr 参 数 的 设置 ， 设 置 为 和 当前 运行 命令 的 集群 相同 ， 为 集群 内 ， 不 同 则 为 


集群 间 复 制 。 其 命令 的 使 用 参数 如 下 : 


bash-3.2$ hbase org.apache.hadoop.hbase.mapreduce.CopyTable 


Usage: CopyTable [general options] [--starttime-X] [--endtime-Y] [--new.name-NEW] 
[--peer.adr-ADR] «tablename» 
Options: 
rs.class hbase.regionserver.class of the peer cluster 
specify if different from current cluster 
rs.impl hbase.regionserver.impl of the peer cluster 
starttime beginning of the time range (unixtime in millis) 
without endtime means from starttime to forever 
endtime end of the time range. Ignored if no starttime specified. 
versions number of cell versions to copy 
new.name new table's name 
peer.adr Address of the peer cluster given in the format 
hbase.zookeeer.quorum: hbase.zookeeper.client.port: zookeeper.znode.parent 
families comma-separated list of families to copy 


To copy from cfl to cf2, give sourceCfName: destCfName. 
To keep the same name, just give "cfName" 


all.cells also copy delete markers and deleted cells 
Args: 

tablename Name of the table to copy 

Examples: 


To copy 'TestTable' to a cluster that uses replication for a 1 hour window: 

$ bin/hbase org.apache.hadoop.hbase.mapreduce.CopyTable --starttime-1265875194289 
--endtime-1265878794289 --peer.adr-serverl, server2, server3: 2181: /hbase 
-—-families-myOldCf: myNewCf, cf2, cf3 TestTable 

For performance consider the following general options: 

-Dhbase.client.scanner.caching-100 

-Dmapred.map.tasks.speculative.execution-false 


这 里 直接 从 下 面 的 示例 中 讲解 参数 的 使 用 。 其 中 ，--peer.adr 表 示 ZooKeeper 的 队列 地 址 ，--new.name 表 示 新 表 的 名 称 ，--families 表 示 要 复制 的 列 族 ，-D 表 示 可 以 附加 的 HBase 其 他 参数 。 


hbase org.apache.hadoop.hbase.mapreduce.CopyTable --peer.adr-hbase-regionserver-1, 
hbase-regionserver-2, hbase-regionserver-3: 2181: /hbase --new.name-test target 
--families-attr, bhvr, ecfl, ecf2 -Dhbase.client.scanner.caching-10000 -Dmapred. 
map.tasks.speculative.execution-false test 


11.1.6 “导出 工具 export 


导出 工具 可 以 将 表 的 内 容 输出 成 HDFS 的 序列 化 文件 ， 使 用 方式 如 下 : 


Usage: Export [-D <property=value>]* <tablename> <outputdir> [<versions> [<starttime> 
[<endtime>]] [^[regex pattern] or [Prefix] to filter]] 
Note: -D properties will be applied to the conf used. 
For example: 
-D mapred.output.compress-true 
-D mapred.output.compression.codec-org.apache.hadoop.io.compress.GzipCodec 
-D mapred.output.compression.type-BLOCK 
Additionally, the following SCAN properties can be specified 
to control/limit what is exportedhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text./ . . 
-D hbase.mapreduce.scan.column.family-«familyName» 
-D hbase.mapreduce.include.deleted.rows-true 
For performance consider the following properties: 
-Dhbase.client.scanner.caching-100 
-Dmapred.map.tasks.speculative.execution-false 
-Dmapred.reduce.tasks.speculative.execution-false 


参数 -D 可 以 设 定 键 值 类 型 的 配置 属性 ， 还 可 以 使 用 正则 表达 式 或 者 过 滤器 去 过 滤 部 分 数据 。 


11.1.7 导入 工具 Import 


入 工具 可 以 加 载 导出 数据 回 HBase， 其 调用 方法 如 下 : 


Usage: Import [options] <tablename> <inputdir> 
By default Import will load data directly into HBase. To instead generate 
HFiles of data to prepare for a bulk data load. pass the option: 
-Dimport.bulk.output-/path/for/output 
To apply a generic org.apache.hadoop.hbase.filter.Filter to the input, use 
-Dimport.filter.class-«name of filter class» 
-Dimport.filter.args-«comma separated list of args for filter 
NOTE: The filter will be applied BEFORE doing key renames via the HBASE IMPORTER 
RENAME CFS property. Futher, filters will only use theFilterffilterKeyValue ` 
(KeyValue) method to determine if the KeyValue should be added; Filter. 
ReturnCodefINCLUDE and $INCLUDE AND NEXT COL will be considered as including 
the KeyValue. RN z 
For performance consider the following options: 
-Dmapred.map. tasks .speculative.execution=false 
-Dmapred.reduce.tasks.speculative.execution-false 


参数 很 简单 ， 一 个 表 名 ， 一 个 输入 目录 ， 但 是 这 里 输入 目录 的 文件 必须 是 Export 命 令 导 出 的 文件 格式 。 当 然 Import 也 可 以 使 用 -D 参 数 。 


11.1.8 日志 回放 工具 WALPlayer 


WALPIayer 工 具 可 以 重 放 WAL 文 件 到 HBase， 底 层 基于 MapReduce 实 现 ， 执 行 命令 后 解析 成 MapReduce 作 业 批量 执行 日 志 回放 。 关 于 日 志 回放 的 原理 参见 9.3.3 节 。 


bash-3.2$ hbase org.apache.hadoop.hbase.mapreduce.WALPlayer 

ERROR: Wrong number of arguments: 0 

Usage: WALPlayer [options] «wal inputdir> «tables» [«tableMappings?] 

Read all WAL entries for «tables». 

If no tables ("") are specific, all tables are imported. 

(Careful, even -ROOT- and .META. entries will be imported in that case.) 

Otherwise «tables» is a comma separated list of tables. 

The WAL entries can be mapped to new set of tables via «tableMapping». 

«tableMapping» is a command separated list of targettables. 

If specified, each table in «tables» must have a mapping. 

By default WALPlayer will load data directly into HBase. 

To generate HFiles for a bulk data load instead, pass the option: 
-Dhlog.bulk.output-/path/for/output 
(Only one table can be specified, and no mapping is allowed! ) 

Other options: (specify time range to WAL edit to consider) 
-Dhlog.start.time- [date |ms] 
-Dhlog.end.time- [date |ms] 

For performance also consider the following options: 
-Dmapred.map.tasks.speculative.execution-false 
-Dmapred.reduce.tasks.speculative.execution-false 


WALPlayer 的 使 用 示例 如 下 : 


bash-3.2$ hbase org.apache.hadoop.hbase.mapreduce.WALPlayer /hbase/.oldlogs test, user test 


13/12/20 12: 48: 39 DEBUG mapreduce.HLogInputFormat: Scanning hdfs: //namenode: 9000/ 
hbase/.oldlogs for HLog files 

13/12/20 12: : 39 INFO mapred.JobClient: Running job: job 201311061017 408547 

13/12/20 : 40 INFO mapred.JobClient: map 0$ reduce 0$ 

13/12/20 : 53 INFO mapred.JobClient: Job complete: job 201311061017 408547 

13/12/20 : 53 INFO mapred.JobClient: Counters: 4 

13/12/20 12: 48: 53 INFO mapred.JobClient: Job Counters 

13/12/20 12: 48: 53 INFO mapred.JobClient: SLOTS MILLIS MAPS-4403 

13/12/20 12: 48: 53 INFO mapred.JobClient: Total time spent by all reduces waiting 
after reserving slots (ms) -0 

13/12/20 12: 48: 53 INFO mapred.JobClient: Total time spent by all maps waiting 
after reserving slots (ms) -0 

13/12/20 12: 48: 53 INFO mapred.JobClient: SLOTS MILLIS REDUCES-O 


11.1.9 53 ELE T RROowCounter 


RowCounter 工 具 可 以 统计 表 的 行 数 ， 底 层 采 用 MapReduce 的 方式 遍历 整个 表 。 使 用 非常 简单 ， 但 前 提 是 运行 该 命令 的 集群 必须 启动 Hadoop 计 算 框架 相关 的 进程 ÜobTrackerfüTaskTracker) , E 
调用 参数 如 下 : 


bash-3.2$ hbase org.apache.hadoop.hbase.mapreduce.RowCounter 

ERROR: Wrong number of parameters: 0 

Usage: RowCounter [options] <tablename> [--range=[startKey], [endKey]] [<column1> 
«Xcolumn2»http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/...] 

For performance consider the following options: E 

-Dhbase.client.scanner.caching-100 

-Dmapred.map.tasks.speculative.execution-false 


11.2 ”Region 和 RegionServer 管 理 


RegionServer 是 整个 HBase 的 核心 ，Region 是 RegionServer 中 的 数据 分 区 ， 对 Region 和 RegionServer 的 运 维 管 理 是 相当 


要 的 内 容 ， 本 节 将 从 Region 合 并 、 上 下 线 和 滚动 重启 等 方面 进行 阐述 。 


11.2.1 大 合并 工具 major_compact 


9.2.4 节 已 经 介绍 了 大 合并 (major compaction) 的 原理 和 算法 流程 。 大 合并 可 以 通过 HBase Shel| 或 HBaseAdmin.majorCompact 进 行 。 本 小 节 将 介绍 如 何 通 过 Shell 的 方式 干预 大 合并 的 过 程 。 进 入 
HBase Shell 客 户 端 ， 执 行 major_ compact 会 获取 如 下 的 帮助 信息 : 


hbase (main) : 005: 0» major compact 
ERROR: wrong number of arguments (0 for 1) 
Here is some help for this command: 
Run major compaction on passed table or pass a region row 
to major compact an individual region. To compact a single 
column family within a region specify the region name 
followed by the column family name. 
Examples: 
Compact all regions in a table: 
hbase» major compact 'tl' 
Compact an entire region: 
hbase» major compact 'rl' 
Compact a single column family within a region: 


hbase» major compact 'rl', 'c1l' 
Compact a single column family within a table: 
hbase» major compact 'tl1', 'c1l' 


从 上 面 的 帮助 信息 可 以 看 到 ， 大 合并 可 以 作用 在 整 张 表 、 单 个 Region 或 者 单个 列 族 上 。 可 以 使 用 下 面 的 命令 操作 大 合并 : 


bash-3.2$ echo "major compact 'test, , 1387190796167.187d4ecl54acdd63f48667ae4cf460d3.'" 
hbase shell E 

HBase Shell; enter 'help«RETURN»' for list of supported commands. 

Type "exit«RETURN»" to leave the HBase Shell 

Version 0.94.8. r1485407, Wed May 22 20: 53: 13 UTC 2013 

major compact 'test, , 1387190796167.187d4ec154acdd63f48667ae4cf46083.' 

0 row (s) in 2.3690 seconds 


11.22 Region 合并 工具 Merge 


Merge 可 以 合并 同一 个 表 的 邻接 的 两 个 Region。 在 执行 命令 之 前 首先 关闭 整个 HBase 集 群 ， 然 后 执行 命令 ， 再 重启 集群 。 其 使 用 方法 如 下 : 


bash-3.2$ hbase org.apache.hadoop.hbase.util.Merge 

For hadoop 0.20, Usage: bin/hbase org.apache.hadoop.hbase.util.Merge 
[-Dfs.default.name-hdfs: //nn: port] «table-name» «region-1» «region-2» 

For hadoop 0.214, Usage: bin/hbase org.apache.hadoop.hbase.util.Merge 
[-Dfs.defaultFS-hdfs: //nn: port] «table-name» «region-1» «region-2» 


下 面 是 一 个 具体 的 使 用 示例 : 


bash-3.2$ hbase org.apache.hadoop.hbase.util.Merge test test, , 1386834286174. 
af20f318afa2c58481a946a935ed662f. test,  135601920004043046 760622974, 
1386834286174.101c6f57cf485a65c8945d5d301bee94. 


112.3 下 线 节 点 


可 以 在 HBase 的 特定 节点 上 运行 下 面 的 脚本 来 停止 RegionServer: 


bash-3.2$ hbase-daemon.sh stop regionserver 


首先 ，RegionServer 会 关闭 所 有 的 Region， 然 后 关闭 自身 进程 ， 在 停止 的 过 程 中 ，RegionServer 会 向 ZooKeeper 报 告 说 自身 已 经 过 期 。Master 将 发 现 RegionServer 已 经 死 掉 ， 会 把 它 当 作 骨 省 的 节点 
来 处 理 ， 然 后 会 将 Region 分 配 到 其 他 节点 上 。 


P 


.下 线 节点 前 停止 负载 均衡 


如 果 在 运行 负载 均衡 的 时 候 ， 关 闭 一 个 节点 ， 则 负载 均衡 器 和 Master 的 Recovery 可 能 会 竞争 要 下 线 的 RegionServer， 很 有 可 能 产生 冲突 。 为 了 避免 这 个 问题 ， 先 将 负载 均衡 器 停止 ， 参 见 下 面 的 关闭 
负载 均衡 器 的 命令 。 


hbase (main) : 001: 0» balance switch false 
true 
0 row (s) in 0.3590 seconds 


要 想 开启 则 执行 下 面 的 命令 : 


hbase (main) : 001: 0> balance switch true 
false 
0 row (s) in 0.3590 seconds 


2. 优 雅 的 下 线 节点 工具 graceful_stop 


当 RegionServer 下 线 时 ，Region 按 顺序 关闭 ， 如 果 一 个 RegionServer 上 有 很 多 Region， 从 第 一 个 Region 下 线 ， 到 最 后 一 个 Region 关 闭 ， 并 且 Master 确 认 其 死 掉 了 ， 该 Region 才 可 以 上 线 ， 


要 花 很 长 时 间 。HBase 0.90.2 中 加 入 了 一 个 功能 可 以 让 节点 逐渐 降低 其 负载 ， 直 到 最 后 关闭 。 该 功能 就 是 graceful_stop， 实 现代 码 位 于 ${HBASE_HOMEMbin/graceful_stop.sh 中 ， 可 以 参考 下 
助 信息 了 解 graceful_stop 的 使 用 方法 。 


bash-3.2$ graceful stop.sh 


Usage: graceful stop.sh [--config <conf-dir>] [--restart [--reload]] [--thrift] 
[--rest] «hostname» 

thrift If we should stop/start thrift before/after the hbase stop/start 

rest If we should stop/start rest before/after the hbase stop/start 

restart If we should restart after graceful stop 

reload Move offloaded regions back on to the restarted server 

debug Print helpful debug information 

hostname Hostname of server we are to stop 


整个 过 程 


的 命令 帮 


要 下 线 一 台 RegionServer 可 以 这 样 使 


bash-3.2$ graceful stop.sh HOSTNAME 


这 里 的 HOSTNAME 是 RegionServer 的 主机 名 称 ， 传 递 到 graceful_stop.sh 的 HOSTNAME 必 须 和 HBase 集 群 中 使 用 的 主机 名 保持 一 致 ，HBase 用 它 来 区 分 RegionServer。 可 以 用 Master 的 Ul 来 检查 
Regionserver 的 ID。 通 常 是 主机 名 ， 也 可 能 是 FQDN (Fully Qualified Domain Name， 即 完全 合格 域名 /全 称 域名 ) 。 不 管 HBase 使 用 的 哪 一 个 ， 都 可 以 将 它 传 到 graceful_stop.sh 脚 本 中 去 。 但 是 ， 目 前 


还 不 支持 使 用 IP 地 址 来 推断 主机 名 。 


graceful_stop.sh 脚 本 会 逐个 将 Region 从 RegionServer 中 移 除 ， 以 减少 该 RegionServer 的 负载 。 先 移 除 一 个 Region， 然 后 再 将 这 个 Region 安 置 到 一 个 新 的 地 方 ， 再 移 除 下 一 个 ， 直 到 全 部 移 除 。 最 后 


graceful_stop.sh 脚 本 会 关闭 RegionServer，Master 会 注意 到 Region-Server 已 经 下 线 了 ， 这 个 时 候 所 有 的 Region 也 已 经 重新 部 署 好 。RegionServer 可 以 干 干净 净 地 结束 。 


11.2.4 滚动 重启 


和 启 RegionServer 有 可 能 导致 Region 信 息 变 动 ， 如 果 考 虑 数据 本 地 化 (Data Locality) 问题 ， 可 以 使 用 滚动 重启 的 方式 (Rolling Restart) ， 类 似 下 面 的 示例 : 


$ for i in 'cat conf/regionservers|sort'; do graceful stop.sh --restart --reload 
--debug $i; done &» /tmp/log.txt & 


上 面 的 脚本 只 对 RegionServer 进 行 操作 。 但 是 ， 仅 仅 靠 上 面 的 命令 还 不 能 做 到 解决 数据 本 地 化 问题 ， 要 确认 负载 均衡 器 已 经 关 掉 ， 还 需要 在 之 前 更 新 Master。 下 面 是 依次 重启 的 执行 流程 : 


1) 运行 hbck 确 保 一 致 性 ， 当 发 现 不 一 致 的 时 候 ， 可 以 修复 : 


bash-3.2$ hbase hbck 


2) 重启 Master: 


bash-3.2$ hbase-daemon.sh stop master; hbase-daemon.sh start master 


3) 关闭 负载 均衡 器 : 


bash-3.2$ echo "balance switch false" | hbase shell 


4) 每 个 RegionServer 上 运行 graceful_stop.sh : 


$ for i in "cat conf/regionservers|sort'; do graceful stop.sh --restart --reload 
--debug $i; done &» /tmp/log.txt & 


5) 再 次 重启 Master。 


6) 重新 开启 负载 均衡 器 。 


7) 运行 hbck 保 证 一 致 性 。 


11.3 ”性 能 指标 Metrics 


Metrics 框 架 并 不 是 HBase 特 有 的 ，Hadoop 早 就 具备 这 项 特征 ，HBase 的 Metrics 继 承 了 所 有 的 Hadoop Metrics 特 性 ， 可 以 用 于 JMX 和 Ganglia 等 多 种 监控 AP1， 其 监控 的 内 容 也 非常 广泛 ， 包 含 


Master、RegionServer、RPC、JVM 等 。 


Metrics 框 架 中 MetricsContext 接 口 是 一 个 基本 类 ， 其 定义 了 监控 动作 、 数 据点 生成 等 一 系列 方法 ， 图 11-1 是 该 接口 的 所 有 实现 类 。 


Wi. MetricsContext 
Y (9^ AbstractMetricsContext 
(9 CompositeContext 
(9 rFileContext 
Y" ($ GangliaContext 


(9 GangliaContext31 
(9 NoEmitMetricsContext 
(3 NullContext 
© NullContextwithUpdateThread 


图 11-1 MetricsContext 接 口 的 实现 类 


其 中 ，GangliaContext 用 于 将 Metrics 推 送 到 Ganglia (监控 工具 ) ，FileContext 用 于 将 Metrics 写 到 本 地 磁盘 ，CompositeContext 用 于 组 合 多 个 Metrics，NullContext 用 于 关闭 Metrics 框 架 的 使 


用 。 


现在 HBase 0.94.* 版 本 中 是 第 一 代 Metrics 框 架 ， 从 HBase 0.95.* 以 后 ， 第 二 代 Metrics 已 经 添加 到 HBase 项 目 中 ， 在 org.apache.hadoop.metrics2 包 中 ， 与 第 一 代 框 架 的 差异 性 很 大 ， 具 体 差异 不 再 展 
开讲 解 ， 详 细 请 参见 官方 JAVADOC[1]。 接 下 来 的 内 容 将 重点 讲解 不 同类 别 的 Metrics 以 及 如 何 使 用 Metrics。 


11.3.1 Master Metrics 


Master Metrics 用 于 统计 全 局 (集群 范围 内 ) 的 操作 ， 聚 合 Regionserver 的 一 些 比较 信息 ， 其 主要 的 实现 类 是 org.apache.hadoop.hbase.master.metrics.MasterMetrics 和 
org.apache.hadoop.hbase.master.metrics.MasterStatistics。 其 统计 主要 包含 Cluster Request 和 split 相 关 的 信息 ， 具 体 的 参数 可 参考 下 面 的 代码 : 


"name" : "hadoop: service=Master, name=MasterStatistics", 


"modelerType" : "org.apache.hadoop.hbase.master.metrics.MasterStatistics", 
"splitTimeNumOps" : 0, 

"splitTimeAvgTime" : , 

"splitTimeMinTime" : -1, 

"splitTimeMaxTime" : 0, 

"splitSizeNumOps" : 0， 

"splitSizeAvgTime" : 0, 

"splitSizeMinTime" : -1, 

"splitSizeMaxTime" : 0, 

"cluster requests" : 0.0 


11.3.2 RegionServer Metrics 


Regionserver 负 责 实 际 的 数据 存储 、 用 户 /O， 是 HBase 最 核心 的 部 分 ， 所 以 这 部 分 对 应 的 Metrics 内 容 很 丰富 。 主 要 的 实现 类 包含 在 org.apache.hadoop.hbase.regionserver.metrics 包 中 ， 所 包含 的 
实现 类 如 图 11-2 所 示 。 


B 
+ Ei compactions 
= & handler 
Y Ei metrics 
lj OperationMetrics.class 
in RegionMetricsstorage.class 
i» RegionServerDynamicMetrics.class 
Ls RegionServerDynamicStatistics.class 
i RegionServerMetrics.class 
ià RegionServerStatistics.class 
i» SchemaConfigured.class 
lo SchemaMetrics.class 


d 
» 
d 
» 
d 
Ld 
P 
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图 11-2 RegionServer Mettics 相 关 的 实现 类 


RegionServer Metrics 主 要 包含 如 下 几 类 内 容 : 

-I/O: 读 、 写 的 latency、 文 件 系统 同步 的 latency 等 。 

* Blockcache: blockcache 空 闲 大 小 、 命 中 次 数 、 命 中 率 、 丢 失 率 等 。 
.Compaction: 合并 大 小 、 合 并 时 间 等 。 

“Store: 数量 、 文 件数 、 索 引 大 小 等 。 

- MemStore: flush 大 小 、flush 时 间 、flush 队 列 大 小 等 。 

“ 其 他 : 请 求 数 量 、 上 日志、HDFS 索 引 等 。 


上 面 介绍 的 只 是 大 致 划分 ， 详 细 的 统计 项 请 参考 下 面 的 代码 (因为 项 很 多 ， 限 于 篇 幅 ， 只 罗列 部 分 项 ， 并 非 全 部 ) : 


"name" : "hadoop: service-RegionServer, name-RegionServerStatistics", 
"modelerType" :  "org.apache.hadoop.hbase.regionserver.metrics.RegionServerStatistics", 
"totalStaticBloomSizeKB" : 60934, 
"totalStaticIndexSizeKB" : 1404477, 
"blockCacheFree" : 1678480200, 
"compactionSizeNumOps" : 0, 
"compactionSizeAvgTime" : 0, 
"compactionSizeMinTime" : 7349, 
"compactionSizeMaxTime" : 10899209771, 
"memstoreSizeMB" : 1077, 

"regions" : 53, 

"blockCacheCount" : 70122, 
"blockCacheHitRatio" : 86, 
"flushQueueSize" : 0, 
"fsReadLatencyNumOps" : 0, 
"fsReadLatencyAvgTime" : 0, 
"fsReadLatencyMinTime" : -1, 
"fsReadLatencyMaxTime" : 0, 
"atomicIncrementTimeNumOps" : 0, 
"atomicIncrementTimeAvgTime" : 0, 
"atomicIncrementTimeMinTime" : -1, 
"atomicIncrementTimeMaxTime" : 0, 
"blockCacheHitCachingRatio" : 93, 
"blockCacheHitCount" : 4891282150, 
"hdfsBlocksLocalityIndex" : 91, 
"writeRequestsCount" : 202450713, 
"slowHLogAppendTimeNumOps" : 0， 
"slowHLogAppendTimeAvgTime" : 0， 
"slowHLogAppendTimeMinTime" : -1, 
"slowHLogAppendTimeMaxTime" : 0， 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 


11.3.3 RPC Metrics 


Master 和 RegionServer 都 支持 RPC (Remote Procedure Call) ，RPC 的 调用 情况 直接 反应 客户 端 和 服务 端的 交互 性 能 ， 所 以 该 部 分 的 Metrics 也 是 非常 重要 的 指标 ， 其 主要 实现 类 有 : 


* org.apache.hadoop.hbase.ipc. HBaseRpcMetrics 


* org.apache.hadoop.hbase.ipc. HBaseRPCStatistics 


RPC Metrics 主 要 包含 如 下 几 类 内 容 : 


: 获取 系统 信息 : 获取 协议 版 本 、alter 状 态 等 。 

< DDL 操 作 : 增 、 删 、 改 、 查 操作 的 时 间 、 次 数 等 。 

: DML 操作 : enable、disable、create、assign、alter 等 操作 的 时 间 。 
- 管理 操作 : balance、stop 等 操作 的 时 间 。 


“ 其 他 : 错误 报告 以 及 发 送 、 接 收 字 节 数 等 。 


其 详细 的 选项 见 下 面 的 代码 (限于 篇 幅 ， 这 只 是 部 分 选项 ， 并 非 全 部 ) : 


"name" : "hadoop: service=HBase, name=RPCStatistics-60000", 
"modelerType" : "org.apache.hadoop.hbase.ipc.HBaseRPCStatistics", 
"enableTableNumOps" : 0， 

"enableTableAvgTime" : 0， 

"enableTableMinTime" : 5, 

"enableTableMaxTime" : 6, 

"assignNumOps" : 0, 

"assignAvgTime" : 0, 

"assignMinTime" : -1, 

"assignMaxTime" : 0, 

"enableTable.aboveOneSec.NumOps" : 0, 
"enableTable.aboveOneSec.AvgTime" : 0, 
"enableTable.aboveOneSec.MinTime" : -1, 
"enableTable.aboveOneSec.MaxTime" : 0, 
"getStoreFileListNumOps" : 0, 

"getStoreFileListAvgTime" : 0， 

"getStoreFileListMinTime" : -1, 
"getStoreFileListMaxTime" : 0, 

"RpcSlowResponseNumOps" : 0, 

"RpcSlowResponseAvgTime" : 0， 

"RpcSlowResponseMinTime" : -1, 

"RpcSlowResponseMaxTime" : 0, 

http://www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/ . . http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ek 


11.3.4 JVM Metrics 


对 于 Hadoop 和 HBase 系 统 调 优 来 说 ，JVM 的 优化 占据 一 席 之 地 。Metrics 同 时 提供 了 JVM Metrics 的 支持 ，JVM Metrics 包 含 了 内 存 使 用 、 垃 圾 回收 (GC) 、 线 程 、 系 统 相 关 等 方面 的 统计 。 详 细 的 选 


项 见 下 面 的 代码 : 


回 


Ej 


"name" : "java.lang: type-MemoryPool, name-CMS Old Gen", 
"modelerType" : "sun.management.MemoryPoolImpl", 
"Name" CMS Old Gen", 
"Type" "HEAP", 
"Valid" : true, 
"Usage" : { 
"committed" : 65404928, 
"init" : 65404928, 
"max" : 17005412352, 
"used" : 11341152 


11.3.5 “集群 属性 Metrics 


集群 属性 Metrics 用 于 统计 现 有 集群 的 属性 状态 ， 包 含 HBase 版 本 、HDFSs 版 本 、 修 订 号 、 发 布 时 间 、HDFS URL 位 置 等 内 容 ， 都 是 静态 变量 ， 实 现 类 是 
org.apache.hadoop.hbase.metrics.HBaselnfo。 其 完整 的 选项 如 下 : 


"name" : "hadoop: service=HBase, name=Info", 

"modelerType" : "org.apache.hadoop.hbase.metrics.HBaseInfo$HBaseInfoMBean", 
"revision" : "1332822", 

"hdfsUser" : "hortonfo", 

"hdfsDate" : "Tue Mar 27 16: 24: 17 UTC 2012", 

"hdfsUrl" : "https: //svn.apache.org/repos/asf/hadoop/common/branches/branch-1.0.2", 
"date" : "Tue Mayl 21: 43: 54 UTC 2012", 

"hdfsRevision" : "1304954", 

"user" : "jenkins", 

"hdfsVersion" : "1.0.2", 

"url" : "https: //svn.apache.org/repos/asf/hbase/branches/0.94", 

"version" : "0.94.0" 


[1] $A JLhttp:/ /hadoop.apache.org/docs/current/api/org/apache/hadoop/mettics2//package-summary.html o 


114 ”监控 系统 Ganglia 


Ganglia 是 一 个 跨 平 台 可 扩展 的 、 高 性 能 计算 系统 下 的 分 布 式 监控 系统 ， 如 集群 和 网 格 。 它 基于 分 层 设 计 ， 使 用 广泛 的 技术 ， 如 XML 数 据 代表 、 便 携 数据 传输 、RRDtool 用 于 数据 存储 和 可 视 化 。 它 利 
精心 设计 的 数据 结构 和 算法 实现 节点 之 间 的 低 并 发 。 它 已 移植 到 广泛 的 操作 系统 和 处 理 器 架构 上 ， 目 前 世界 各 地 成 干 上 万 的 集群 正在 使 用 。Ganglia 内 部 的 角色 分 为 三 类 : 


- 数据 监测 节点 (gmond) : 这 个 部 件 安装 在 需要 监测 的 节点 上 ， 用 于 收集 本 节点 的 运行 情况 ， 并 将 这 些 统计 信息 传送 到 gmetad。 
- 数据 收集 节点 (gmetad) : 该 部 件 用 于 收集 gmond 发 送 的 数据 。 


:WEB 界面 : 用 于 将 gmetad 整 理 生成 的 xml 数 据 以 网 页 形式 呈现 给 用 户 。 


本 节 接 下 来 将 详细 介绍 HBase 监 控 指 标 、Ganglia 安 装 部 署 和 使 用 。 


11.4.1 HBase 监 控 指标 


下 面 的 监控 指标 对 每 个 RegionServer 的 高 级 别 监控 被 证 明 都 是 最 重要 的 。 如 果 集 群 具有 性 能 问题 ， 参 考 这 些 指标 能 在 很 大 程度 上 解决 问题 。 


HBase 相 关 进 程 : 


: Requests 


* Compactions queue 


操作 系统 : 


“ IO 等 待 时 间 


- 用 户 CPU 时 间 


Java: 


* GC 


当然 ， 性 能 指标 涵盖 更 多 的 信息 ， 更 详细 的 信息 可 以 参考 上 一 节 关 于 Metrics 的 介绍 。 下 面 介 绍 的 Ganglia 将 涵盖 上 面 所 提 到 的 所 有 指标 ， 并 通过 图 形 展示 的 方式 呈现 给 用 户 ， 方 便 用 户 定位 问题 。 


11.2 ”安装 、 部 署 和 使 用 Ganglia 


前 面 已 经 介绍 了 Ganglia 是 一 个 图 形 化 的 、 跨 平台 监控 系统 ， 本 节 将 重点 介绍 如 何 安装 部 署 Ganglia。 在 所 有 机 器 上 都 需要 执行 “环境 准备 ”和 “部 署 HBase Metrics” 步 骤 ， 其 他 的 步骤 如 “编译 安装 
gmetad” 和 “部 署 Web 部 分 ”在 同一 台 机 器 执行 ， 该 机 器 是 HBase 和 集群 之 外 的 机 器 。 步 骤 “ 编 译 安装 gmond” 需 要 在 HBase 每 台 机 器 上 都 执行 。 


1. 环 境 准备 


(1) 添加 


在 Linux 系 统 上 添加 ganglia 用 户 : 


adduser --no-create-home ganglia 


(2) 下 载 源码 


从 sourceforge.net 上 下 载 Ganglia 源 代码 并 解压 : 


wget http://sourceforge.net/projects/ganglia/files/ganglia$20monitoring$20core/ 
3.0.7$20$28Fossett$29/ganglia-3.0.7.tar.gz 
tar -zxvf ganglia-3.0.7.tar.gz 


2. 编 译 安装 gmond 


gmond 是 Ganglia 监 控 守 护 进程 ， 所 有 集群 节点 使 用 mond 收 集 监控 指标 的 状态 。 下 面 的 内 容 是 gmond 详 细 的 编译 安装 步骤 。 
(1) 安装 依赖 


下 面 的 代码 是 安装 Ganglia 编 译 所 需要 依赖 的 命令 : 


yum -y install apr-devel apr-utilcheck-devel cairo-devel pango-devel libxml2- 
devel rpmbuild glib2-develdbus-devel freetype-devel fontconfig-devel gcc-c++ 
expat-devel python-devel libXrender-devel perl-ExtUtils-CBuilder perl- 
ExtUtils-MakeMaker rrdtool rrdtool-devel 


(2) 编译 安装 Ganglia 


使 用 make 和 make install 分 别 编译 和 安装 Ganglia: 


cd ganglia-3.0.7 
./configure 
make 

make install 


(3) 生成 并 编辑 配置 文件 


首先 从 默认 配置 中 生成 gmond 的 配置 文件 ， 然 后 编辑 配置 文件 ， 加 入 全 局 和 集群 相关 的 配置 信息 。 


// 生 成 配置 文件 命令 

gmond --default config > /etc/gmond.conf 
// 编 辑 ， 添 加 代码 到 配置 文件 
vi /etc/gmond.conf 
globals { 

user - ganglia 

} 

cluster { 

name = "hbase-in-action" 

} 

udp send channel { 

# mcast join = 239.2.11.71 
host = ganglia-web 

143 

Monitoring and Diagnosis 
port = 8649 

# ttl =1 

} 

udp recv channel { 

# mcast join = 239.2.11.71 
port = 8649 

# bind = 239.2.11.71 

} 


(4) 启动 gmond 


使 用 下 面 的 命令 启动 Ganglia 监 控 端 ; 


gmond 


3. 编 译 安装 gmetad 


gmetad 用 于 收集 并 汇总 监控 指标 的 状态 ， 下 面 内 容 是 其 详细 的 编译 安装 步骤 。 
(1) 安装 依赖 


下 面 的 代码 是 安装 Ganglia gmetad 编 译 所 需要 依赖 的 命 


yum -y install apr-devel apr-utilcheck-devel cairo-devel pango-devel libxml2- 
devel rpmbuild glib2-develdbus-devel freetype-devel fontconfig-devel gcc-ct* 
expat-devel python-devel libXrender-devel perl-ExtUtils-CBuilder perl- 
ExtUtils-MakeMaker rrdtool rrdtool-devel 


(2) 编译 安装 gmetad 


使 用 --with-gmetad 参 数 配 置 ， 然 后 编译 、 安 装 。 


cd ganglia-3.0.7 
./configure --with-gmetad 
make 

make install 


(3) 生成 并 编辑 配置 文件 


首先 生成 配置 文件 ， 然 后 添加 相应 的 属性 到 该 文件 ， 之 后 创建 用 于 存储 收集 数据 的 数据 库 目录 。 


// 生 成 配置 文件 7 j "€ 

Cp ganglia-3.0.7 ietad/gmetad.conf /etc etad .conf 
7/48 VIRIS Sn lec /ametad. cont HEEE 

data source "hbase-in-action" ganglia-web 

gridname "hbase-in-action" 

setuid username "ganglia" 

/ al zound- robin F Ha Tte olent 

mkdir -p /var/lib/ganglia/rrds 

chown -R ganglia: ganglia /var/lib/ganglia 


(4) 启动 gmetad 


使 用 下 面 的 命令 启动 gmetad : 


gmetad 


4 部 署 Web 部 分 


(1) 安装 依赖 


所 需 依 赖 包含 RRD 工 具 包 、Apache 服 务 器 和 PHP5 相 关 包 ， 安 装 命令 如 下 : 


yum -y install php-common php-cli php php-gd httpd 


(2) 复制 PHP 文 件 


将 Ganglia 中 相关 的 文件 复制 到 Apache 服 务 器 的 默认 目录 下 ， 代 码 如 下 : 


cp -r ganglia-3.0.7/web /var/www/ganglia 


limit 


(3) 重启 Apache 服 务 器 


使 用 下 面 的 命令 重启 Apache 服 务 器 : 


service httpd restart 


(4) Web 页 面 访问 


通过 下 面 的 URL 访 问 Ganglia， 其 详细 页 面 如 图 11-3 所 示 。 


http://ganglia-web/ganglia/ 


Ganglia 
Last hou ~ 

Grid >: [=Che0s0n Ga ~ 

CPUs Total; 432 


Hosts up: 66 
Hosts down: 1 


Avg Load (15. 5. 1m) 
4656, 55%, 69% 


Localtime 
2013-12-23 1524 


bf data node (jhyzicel view) 
4oR 


Avg Load (15. 5 1m) 
48. 50%, 67% 


Locattime 
2013-12-23 1524 


bf names (physical vzes) 
CPUs Total: 
Hosts up: 
Hosts down: 
Avg Load (15. 5 
56. 155. 1*6 


Locamme 
2013-12-23 1524 


5. 部 署 HBase Metrics 


修改 hadoop-metrics.properties 文 件 中 对 应 的 Metrics 
属性 ， 可 以 选择 某 一 项 属性 单独 查看 。 


属性 ， 添 加 hbase、jvm、rpc 对 应 的 类 和 采集 周 


unspecified Grid Report for Non, 23 Dec 2013 15:24:48 +0800 


Lead/Procs 


15:09 25:20 
Di-inioad [QNoces GC Buning Precesses 


bf data node Load last hour 


Ld 110 
日 3-min Lead (Nodes BCU: dM fumring Processes 


bf names Load last hour 


Low/Procs 


9 
19:10 


LE 15:00 
Di-min Lead [Nodes MCUs M Amning Processes 


unspecified Grid Memory last hour 
zor 


Eae: 
5 


LII 
m m 
B eeory Used W Memory Shared 
O Mesory Buffered a 
B Total In-Core Menory 


bf data node Memory last hour 


34:40 15-00 15:20 

Mesory Uses M Memory Shares 目 eeory Coches 
© Mesory Buttered B Menory Suapped 
f Totst 1n-Core Memory 


bf names Memory last hour 


Mao no 
B eseory Usea B Menory Shared 
o Wuffered 
fl Total In-Cere Memory 


Snapshot of the unspecified Grid | n4 


图 11-3 ”Ganglia 图 形 界 面 


期 以 及 gmetad 主 机 名 和 端口 。 配 置 完成 后 重启 HBase 集 群 ， 就 能 找到 类 似 图 11-4 中 罗列 的 监控 


// 修 改 hadoop-metrics.properties 文 件 
vi $HBASE HOME/conf/hadoop-metrics.properties 
hbase.extendedperiod - 3600 


hbase.class-org.apache.hadoop.metrics.ganglia.GangliaContext 


hbase.period-10 
hbase.servers-ganglia-web: 8649 


jvm.class-org.apache.hadoop.metrics.ganglia.GangliaContext 


jvm.period-10 
jvm.servers-ganglia-web: 8649 


rpc.class-org.apache.hadoop.metrics.ganglia.GangliaContext 


rpc.period-10 
rpc.servers-ganglia-web: 8649 


6. 使 用 Ganglia 


在 图 11-4 罗 列 的 Metrics 列 表 中 ， 单 击 感 兴趣 的 项 ， 页 面 会 自动 跳 转 到 该 项 的 


图 形 统计 页 面 。 例 如 选择 “jvm.metrics.threadsBlocked” 会 看 到 如 图 11-5 所 示 的 界面 。 


另外 ， 可 以 单独 选择 一 台 机 器 进行 监控 ， 也 可 以 选择 某 个 source 进 行 汇总 监控 ， 还 可 以 添加 时 间 段 选项 或 者 排序 方式 等 。 监 控 具 备 多 维度 、 准 实时 、 汇 总 统计 等 特性 。 


il 


hbase.regionserver.comp 


hbase regionserver.compactionSize num ops 
hbase.regionserver.comparctionTime avg time 
hbase.regionserver.compactioónTime, num, ops 
hbase.regionserver flushQueueSize 
hbase.regionserver.flushSize avg time 
hbase.regionserver flushSize num ops 
hbase.regionserver.flushTime avg time 


EPET 


hbase.regionserver.flushTime num ops 
hbase.regionserver fsReadLatency, avg. time 
hbase.regionserver.fsReadLatency num ops 


hbase.reaionserver.fsSvnclatency ava time 


和 Lac — ir 


hbase, regionserver, fsSyncLatency num ops 
hbase.regionserver.fsWriteL atency, avg, time 
hbase.regionserver.fsWriteLateney num ops 
hhbase.regionserver.memstoreSiz eMB 

hbase regionserver regions 
hbase.regionserver. requests 
hbase.regionserver.storefileIndexSize MB 
hbase.regionserver.stonefiles 
hbase.regionserver stones 
hbase.replication.appliedBatchesRate 

hbase replication applied OpsRate 
jwm.metrics.geTimeMIIIis 
jum.metrics.logError 

jvm.metrics.logFatal 

j]vm.metrics.loginfo 

jvm,metrics.logWarn 
jvm.metrics.memHeapCommittedM 
jum.metrics.memNonHeapCommittedM 
jwm.metrics.memNonHeapUsedM 

jvm. metrics. threadsBlocked 
jvm.metrics.thread sN ew 

jem. metrics. threadsRunnable 


x iic'tia d aka IE Auk a T3 


图 11-4 Ganglia* HBaseJ X fj Metrics 7] Jc 


Overview cf bf data node 


CPUs Total: 432 bf data node Load Last hour bí data node CPU last hour bf data node Memory last hour 
Horis up: 93 t t 
Hagts dom: 1 


Avg Lead (15, 5, 1a]: 

*»**, Zb*, 30» s B 
Laraltine: $ e 15.00 25:20 35:40 

2013-12-23 15:4T 35:00 15:10 13:40 B Memory Used Wrerory Shared — (B Memory Cached 

> 1 muser CPU. Nice CPU — Micsystee CPU WAIT CPU El Memory Buffered B Meeory Swapped 

Bien Lod diodes MCUs W Running Processes B Idle CPU Wi Toto Jn«Core Memory 


Leid/Procs 
Percent 


Cluster Load Percentage 
bf data node Network last hour 


Bytes/sec 


1:26 15:46 


»u 9 sO | bf data node jvm. metrics. threadsBlocked last hour sorted descending | Cms 4 > 


Lodi eer ee od 
20* $ tet è w+ 
1| | | A T 
L a C6 e 

15:00 15:20 15:46 1500 15:20 35:40 1500 15320 15:40 
B jv metrics threadsblocked vs metrics threadsBlocked I B jve metrics thresdsB locked 


a 


| FE 
3 | $ oet 
E | - 
=o p SSIES. | A wa | 
150 15:20 与 240 | 35:00 15:30 4*:49 
Bl jew metrics tr cedsBloched: i Bl jvs.actricstreodsflocke d 


图 11-5 “jvm.metrics.threadsBlocked” 指 数 监控 图 表 


11.5 ”HBase 管 理 扩展 JMX 


JMX (Java Management Extensions，Java 管 理 扩展 ) 是 Java 平 台 上 为 应 用 程序 、 设 备 、 系 统 等 植 入 管理 功能 的 框架 。JMX 可 以 跨越 一 系列 异 构 操作 系统 平台 、 系 统 架构 和 网 络 传输 协议 ， 灵 活 地 开 
发 无 颖 集成 的 系统 、 网 络 和 服务 管理 应 用 。 图 11-6 是 JMX 架 构图 ， 从 架构 图 中 可 以 看 出 ，JMX 提 供 多 种 对 外 的 访问 接口 : JConsole、 特 殊 Console、HTTP、SNMP 等 方式 。 因 为 HTTP 方 式 简单 、 易 用 、 结 
构 良 好 、 可 读 性 良好 ， 本 节 接 下 来 的 内 容 将 重点 讲解 HTTP 的 方式 。 


r$ 


Wen SNMP 
Browser Corsole 


HTMLIHTTP SNMP 


图 11-6 JMX 架 构 


N 


11.5.1 如 何 使 用 JMX 


= 


JMX 是 HBase 自 带 工 


任何 配置 即 可 使 


HTTP 方 式 。 直 接 打开 浏览 器 ， 输 入 下 面 的 URL: 


p 


http://hbase-master: 60010/jmx 
http://hbase-regionserver-1: 60030/jmx 


第 一 个 URL 是 Master 的 JMX 信 息 ， 第 二 个 URL 是 某 台 RegionServer 的 JMX 信 息 ， 所 有 数据 都 以 JSON 格 式 显 示 ， 如 | 


上 面 的 两 个 URL 都 可 以 获取 所 有 的 JMX 信 息 ， 还 有 一 种 方式 可 以 获取 JMX 的 部 分 信息 ， 使 用 这 种 方式 能 够 在 很 大 程 


11-7 和 图 


11-8 所 示 。 


度 上 减少 网 络 传输 的 消耗 ， 提 升 访问 性 能 。 下 面 是 一 个 获取 部 分 JMX 信 息 的 示例 : 


http://hbase-master: 60010/jmx? qry=hadoop: service-Master, name-MasterStatistics 


和 | 


hbase rcgionscrver 1:60030/jmx 


"beans* : [ ( 
"name" : "java.lang:typesMemoryPool,name-CMS Old Gen", 
"modelerType* : "sun,.management,MemoryPoollImpl", 
"Name" : "CMS Old Gen", 
"Type? : “HEAP”, 
"Valid" : true, 


"Usage" : 4 

"committed" : 14341992448, 
: 65484928, 
17005412352, 
: 9629586864 


"Init" 
"max" ; 
"used" 


}, 
"CollectionUsage" : { 

"committed" : 14341992448, 

"init" : 654164928, 

"max" : 17005412352, 

"used" : 6573471766 
}, 
"CollectionUsageThreshold" : 8, 
"CollectlonUsageThresholdCount" : 0, 
"MemoryManagerMames" : [ *ConcurrentMarkSweep" ], 
"PeakUsage" : { 

"committed" ; 14341992448, 

"init" : 65464928, 

"max" : 17005412352, 

"used" : 10156235952 
) 
"Usagelhreshold" ; 6, 
"UsageThresholdCount" : 0, 
"CollectionUsageThresholdExceeced' : true. 
"CollectionUsaceThresholdSupported" : true, 
"UsageThresholdExceeced" : true, 
"UsogeThresholdSupported" ; true 

1 
"name" : "jova.lang:type-Memory", 
"modelerType" : "sun.management.MemoryInpl", 
"HeapMemoryUsage" : { 

"committed" : 144960186764, 

"init" ; 日 


图 11-7 


+ hbasemaster:6 


10/ 


"beans" : [ ( 
"name" : "java,lang:typesMemoryPool,namesCMS Old Gen", 
"modelerType* : 'sun.management.MemoryPoolImpl*, 
"Mame" : "CMS Old Gen", 
"Type" : "HEAP", 
"Valid" : truc, 
"Usage" : ( 
"committed" : 65404928, 
"init" : 65404928, 
"max" : 17065412352, 
"used" : 11341152 


}, 

"CollectionUsege* 
"committed : 0, 
"init" : 65404928, 
"max" : 17065412352, 
"used" : 0 


t 


h 
"CollectionUsageThreshold" : 0, 
"CollectionUsegeThresholdCount" : 0, 
"MemoryManage rNanes " I "ConcurrentMarkSweep" ], 
"PeakUsace* : { 

"committed" : 65404928, 

"init" : 65404928, 

"max" : 17065412352, 

"used" : 11341152 


) 


sageThreshold" : 
"UsageThresholdCount" 
"CollectionUsegeThresholdExceeded" : 
"CollectionUssgeThresholdSupported" : true, 


e, 
: ©, 
true, 


"UsageThresholdExceeded" : true, 
"UsageThresholdSupported" : true 

t 
"name" : "jave.lang:typesMemory", 
"modelerType* : *sun.moanagement.MemoryImpl", 
"Verbose" : true, 
"HeapMencryUsege* : ( 

"committed" : 85880192. 


HTTP37 i] RegionServer JMX 输 出 结果 


图 11-8 ” HTTP 访问 Master JMX 输 出 结果 


区 别 是 qry ( 即 query) 参数 ， 可 以 在 服务 器 端 匹 配 相 应 的 数据 ， 然 后 返回 。qry 参 数 后 面 的 hadoop:service=Maste 


r, name=MasterStatistics 是 返回 结果 中 bean 的 name 字 段 的 值 。 返 回 


结果 如 下 : 


"beans" : 
"name" : 


"modelerType" : 
"splitTimeNumOps" : 
"splitTimeAvgTime" : 
"splitTimeMinTime" : 
"splitTimeMaxTime" : 
"splitSizeNumOps" : 
"splitSizeAvgTime" : 
"splitSizeMinTime" : 
"splitSizeMaxTime" : 
"cluster requests" : 


1] 


Lt 


"hadoop: service-Master, name-MasterStatistics", 


0, 
0, 


"org.apache.hadoop.hbase.master.metrics.MasterStatistics", 


11.5.2 ”基于 JMX 的 监控 工具 Ella 


Ellal1] 是 由 笔者 开发 的 ， 是 针对 HBase 集 群 在 Region、Table、RegionServer 等 级 别 的 监控 工具 。Ella 是 一 条 陪 明 、 帅 气 的 “边境 牧羊 大”， 同 时 也 是 HBase 的 监控 者 、 看 门 狗 。 这 里 的 “看 门 狗 ”可 不 


是 贬义 ， 是 误 义 词 。 其 监控 所 涵盖 的 内 容 如 下 : 


“ RRA RAT 


“Region 级 别 请 求 统计 (Hot Region) 。 


| ( 读 、 写 、 合 计 次 数 ， 以 及 TPS) 。 


"Server 级 别 请 求 统计 ( 读 、 写 、 合 计 以 及 TPS) 。 


* ZooKeeper 监 控 。 


* Master 属 性 监控 (HBase 版 本 、 作 者 、Hadoop 版 本 等 ) 。 


Master 的 RPC 统 计 。 


1. 使 用 的 开源 框架 


Ella 使 用 不 少 开源 框架 ， 本 着 “ 取 之 开源 、 还 之 于 开源 ”的 理 


人 


m" 


* Java 1.6. (http://www.oracle.com/technetwork /java/index.html ) 


* Jetty 8.1.11.v20130520 (http:/ /www.eclipse.org/jetty/ ) 


* HBase 0.94.0. (http:/ /hbase.apache.org/ ) 


- Hadoop 1.1.2. (http:/ /hadoop.apache.org/ ) 


* Maven 2.2.1 (http:/ /maven.apache.org/ 


* MySQL 5.5.29. (http:/ /www.mysql.com/) 


“ JMX (http:/ /zh.wikipedia.org/wiki/]MX) 


* FastJson (https:/ / github.com/alibaba/fastjson) 


* Quartz 1.5. (http:/ /www.quartz-scheduler.org/ ) 


: D3 (https://github.com/mbostock/d3) 


2. 安 装 Ella 


将 Ella 开 源 出 来 贡献 给 社区 ， 以 帮助 更 多 的 人 。 下 面 是 Ella 中 所 使 用 到 的 开源 项 目 : 


安装 Ella 首 先 要 注意 的 一 点 是 不 能 将 Ella 安 装 在 HBase Master 机 器 上 ， 并 且 已 经 安装 完 JDK1.6、Maven2 和 MySQL 5.5, 


(1) 下 载 源 代码 


执行 下 面 的 命令 下 载 Ella 源 代码 ， 并 且 和 解压 安装 Ella。 


// 下 载 


wget https: //github.com/mayanhui/ella/archive/master.zip 


// 解 压 


mv master /opt/modules/ 


cd /opt/modules 


unzip master 


// 查 看 文件 


cd ella-master 


ls -1 
drwxr-xr-x 8 root root 4096 07-29 14: 58 jetty-server 
-rw-r--r-- 1 root root 35127 07-29 14: 58 LICENSE 
-rw-r--r-- 1 root root 4680 07-29 14: 58 pom.xml 
-rw-r--r-- 1 root root 8889 07-29 14: 58 pom.xml.bak 
-rw-r--r-- 1 root root 1892 07-29 14: 58 README.md 
drwxr-xr-x 3 root root 4096 07-29 14: 58 src 

(2) 修改 Ella 属 性 文件 


修改 ella-master/src/main/resources 下 的 ella.properties 文 件 ， 该 文件 包含 三 个 部 分 : ZooKeeper, HBase JMX 和 MySQL， 它 们 分 别 做 如 下 修改 。 


“ZooKeeper 相 关 配 置 ， 修 改 为 对 应 的 IP 和 Port: 


hbase.master=192.168.2.61: 60000 
hbase.zookeeper.quorum=192.168.2.64, 192.168.2.63, 192.168.2.62 
hbase.zookeeper.property.clientPort-2181 


“JMX URL， 如 下 代码 所 示 ， 修 改 为 对 应 格式 的 URL: 


ella.hbase.master.baseurl-http://hbase-master: 60010/ 


- MySQL 配置 ， 格 式 如 下 : 


mysql.db.driver-com.mysql.jdbc.Driver 
mysql.db.url-jdbc: mysql: //localhost: 3306/hbase 
mysql.db.user-hbase 

mysql.db.pwd-hbase 


下 面 代 码 中 的 文件 是 MySQL 初 始 化 的 文件 ， 包 含 了 创建 数据 库 、 表 、 权 限 等 SQL 语句 ， 可 以 通过 MySQL 的 source 命 令 执行 下 面 的 SQL， 以 完成 MySQL 的 初始 化 。 


ella-master/src/main/resources/ella-hbase.sql 


(3) 编译 工程 


使 用 下 面 的 命令 编译 Ella， 并 打 成 WAR 包 。 该 步骤 可 能 需要 几 分 钟 的 时 间 ， 请 耐心 等 待 。 


mvn clean install 


w 


.启动 和 停止 Ella 


通过 下 面 的 命令 启动 和 停止 Ela。 因 为 Ella 工 程 使 用 了 Jetty， 编 译 完 Ella 后 ，Maven2 会 自动 将 编译 后 的 WAR 包 复制 到 Jetty 中 ， 所 以 ， 此 处 只 需要 启动 和 关闭 Jetty 即 可 。 


// 启动 

cd /opt/modules/ella-master/jetty-server 
bin/jetty.sh start 

/关闭 


cd /opt/modules/ella-master/jetty-server 
bin/jetty.sh stop 


4. 访 问 Ella 


通过 下 面 的 URL 访 问 Ella， 但 需要 替换 为 安装 Ella 机 器 的 IP 或 者 主机 名 。 图 11-9 和 图 11-10 分 别 展示 了 Ella 登 录 页 面 和 登录 后 的 首页 。 


// 访 问 URL 

http://localhost: 8080/ella/ 
// 默 认 用 户 名 和 密码 

user: admin 

password: admin123 


图 11-9 ”Ella 登录 界面 


message vislinr 


user behavior exibuie noregisterec mid uid index 


图 11-10 ”Ella 首 页 


[1] 请 参见 https://github.com/mayanhui/ella。 


11.6 ”报警 工具 Nagios 


Nagios 是 一 款 开 源 的 免费 网 络 监 视 工 具 ， 能 有 效 监控 Windows、Linux 和 Unix 的 主机 状态 、 交 换 机 路 由 器 等 网 络 设置 以 及 打印 机 等 。 


在 系统 或 服务 状态 异常 时 发 出 邮件 或 短信 报警 ， 第 一 时 间 通 知 网 站 
运 维 人 员 ， 在 状态 恢复 后 发 出 正常 的 邮件 或 短信 通知 。 同 时 ， 可 以 用 Nagios 监 控 Hadoop、HBase 的 日 志 信息 ， 用 于 监控 Hadoop、HBase 系 统 。 下 面 将 详细 介绍 Nagios 的 安装 、 部 署 和 使 用 情况 。 


Nagios 架 构 中 共有 两 类 角色 : 服务 端 和 监控 端 。 在 安装 过 程 的 讲解 中 ， 服 务 端 节点 应 该 是 非 HBase 集 群 节点 (本 文 主旨 是 使 用 Nagios 为 HBase 提 供 报警 服务 ) ;而 监控 端 是 HBase 集 群 中 的 所 有 节点 。 


这 里 假设 服务 端 主机 名 为 nagios-server。 


1. 安 装 YUM 源 


原生 Linux (本 文 使 用 CentOS 6 x86_64 版 本 ) 系统 的 YUM 源 并 没有 包含 Nagios 的 镜像 下 载 ， 所 以 需要 安装 其 他 的 源 。 本 文 推荐 使 有 


CentOS, Scientific Linux 等 提供 高 质量 软件 包 的 项 目 。 


EPEL 源 的 访问 地 址 是 : 


EPEL 源 ， 该 源 由 Fedora 社 


区 打造 ， 为 RHEL 及 衍生 发 行 版 如 


http://dl.fedoraproject.org/pub/epel/6/ 


通过 访问 该 地 址 可 以 看 到 多 个 版 本 ， 本 文 将 下 载 x86_ 64 版本， 需要 在 每 个 需要 监控 的 节点 上 都 安装 该 源 ， 下 载 安装 代码 如 下 : 


wget http://dl.fedoraproject.org/pub/epel/6/x86 64/epel-release-6-8.noarch.rpm 
rpm -ivh epel-release-6-8.noarch.rpm 


2. zc e Nagios 


在 所 有 需要 监控 的 节点 上 使 用 下 面 的 yum 命 令 安装 Nagios 系 统 ， 这 里 并 不 区 分 服务 端 ， 还 是 监控 端 ， 所 有 节点 的 安装 过 程 都 一 样 。 


yum -y install nagios nagios-devel nagios-plugins* gd gd-devel gcc glibc glibc-common openssl 


然后 ， 在 nagios-server 节 点 上 安装 Apache 服 务 器 和 PHP5 依 赖 ， 命 令 如 下 : 


yum -y install httpd php 


3. 配 置 登录 用 户 


使 用 下 面 的 命令 配置 用 户 名 和 密码 ， 回 车 后 直接 输入 密码 。 用 户 名 和 密码 默认 都 是 nagiosadmin， 这 里 也 可 以 不 配置 该 选项 。 


htpasswd -c /etc/nagios/passwd nagiosadmin 


4 配置 服务 端 


首先 ， 配 置 监控 的 主机 名 ， 添 加 需要 监控 的 节点 ， 修 改 /etc/nagios/conf.d/hosts.cfg， 加 入 下 面 的 代码 : 


define host{ 

use linux-server 

host name hbase-rsl 
alias hbase-rsl 
address 192.168.1.100 
} 


然后 ， 配 置 节点 监控 的 服务 ， 将 下 面 的 代码 添加 到 /etc/nagios/conf.d/services.cfg 文 件 中 ， 这 些 代码 定义 了 检测 RegionServer 日 志 的 服务 。 


# check RegionServer log 
define service( 


use generic-service 

host name hbase-rsl 

normal check interval 1 

service description RegionServer log check 

max check attempts 

notification options w Uu C 

check command check nrpe larg! check log hmaster 
} 

5. 配 置 监 控 端 


首先 ， 配 置 allowed_hosts 参 数 。 监 控 端 (FHA) 需要 部 署 到 HBase 集 群 的 每 个 节点 上 ， 下 面 的 流程 在 每 个 节点 上 都 需要 执行 一 遍 。 按 照 下 面 的 代码 ， 配 置 NRPE 服 务 端 并 且 


端 建立 通信 ， 主 要 是 修改 allowed_hosts 参 数 的 值 。 


启 服务 ， 与 Nagios 服 务 


// 配 置 NRPE 服 务 端 

vi /etc/nagios/nrpe.cfg 
fallowed hosts-127.0.0.1 
allowed hosts-nagios-server 


regionserver-hbase-rs1.log 是 HBase 集 群 中 RegionServer 的 日 志文 件 ， 读 者 需要 根据 自己 集群 环境 的 日 志 路 径 定 义 。 


其 次 ， 配 置 check_log_hmaster 命 令 。 修 改 /etc/nagios/nrpe.cfg 文 件 ， 将 下 面 代码 中 的 命令 行 添加 到 配置 文件 中 ， 注 意 ， 代 码 中 的 /opt/modules/hbase/hbase-0.94.18/logs/hbase-hadoop- 


command[check log hmaster]-/usr/lib/nagios/plugins/check log -F /opt/modules/ 
hbase/hbase-0.94.18/10gs/hbase-hadoop-regionserver-hbase-rsl.log -O /var/ 
log/nagios/hbase-hadoop-regionserver-hbase-rsl.log -q "ERROR|FATAL" 


6. 启 动 Nagios 服 务 


首先 配置 开机 自 启动 ， 命 令 如 下 : 


chkconfig --level 3 nagios on 
chkconfig --level 3 httpd on 
chkconfig --level 3 nrpe on 


执行 下 面 的 命令 启动 Nagios 服 务 ， 其 中 nagios 服 务 是 Nagios 的 主 程序 ，httpd 是 Apache 服 务 器 的 启动 程序 ， 这 两 个 服务 都 是 服务 端的 服务 程序 ， 需 要 在 服务 端 节点 上 启动 。 而 nrpe 是 Nagios 的 插件 程 
i 它 用 于 被 监控 的 服务 器 上 ， 向 Nagios 监 控 平台 提供 该 服务 器 本 地 的 一 些 情况 ， 例 如 ，CPU 负 载 、 内 存 使 用 、 硬 盘 使 用 等 。 一 般 情况 下 ， 监 控 端 都 需要 启动 nrpe 服 务 ， 因 为 它 监控 的 是 最 基础 的 服务 器 运 
状态 。 当 然 ， 监 控 端 启动 nrpe 服 务 并 不 是 强制 性 的 。 


# 服 务 端 启动 命令 
/etc/init.d/nagios start 
/etc/init. d/httpd start 
# 服 务 端 重启 外 


/etc/init.d/nagios restart 

/etc/init.d/httpd restart 
端 启动 nrpe 命 令 

it.d/nrpe start 

# 监 控 端 重启 nrpe 命 令 

/etc/init.d/nrpe restart 


7. 页 面 查看 


从 Web 管 理 界面 可 以 查看 Nagios 的 监控 状态 ， 访 问 地 址 如 下 : 


http://nagios-server/nagios 


因为 本 书 中 介绍 的 Nagios 服 务 端 安装 在 nagios-server 机 器 上 ， 所 以 使 用 nagios-server 主 机 名 ， 读 者 可 根据 自己 Nagios 服 务 端的 安装 位 置 更 改 URL 中 的 主机 名 。 例 如 ， 如 果 读 者 将 Nagios 服 务 端 安装 在 
机 器 node-10 上 ， 那 么 URL 应 该 是 http://node-10/nagios。 


在 浏览 器 中 输入 上 面 的 URL 之 后 ,会 得 到 图 11-11 所 示 的 Nagios 管 理 界面 。 当 然 需 要 输入 用 户 名 和 密码 (该 密码 是 安装 的 时 候 设置 的 ) ， 另 外 默认 用 户 名 是 nagiosadmin。 
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11-11 Nagios 管 理 页 面 


8. 添 加 HBase 监 控 
下 面 的 内 容 将 介绍 如 何 使 用 Nagios 监 控 HBase 集 群 。 
(1) Nagios 监 控 端 机 器 


1) 在 /usr/lib64/nagios/plugins 目 录 下 ， 创 建新 文件 check_hbase， 将 下 面 代 码 的 内 容 添加 到 文件 中 。 


#/bin/bash 

bin-'dirname $0' 

bin-'cd $bin; pwd' 

. Sbin/utils.sh 

HADOOP HOME-/opt/modules/hadoop/hadoop-1.2.1 
HBASE HOME-/opt/modules/hbase/hbase-0.94.18 
DFS REMAINING WARNING-15 

DFS REMAINING CRITICAL-5 

ABNORMAL QUERY-" INCONSISTENT | CORRUPT | FAILED | Exception" 
# hbck and fsck report 
output-/tmp/cluster-status 

SHBASE HOME/bin/hbase hbck >> $output 

SHADOOP HOME/bin/hadoop fsck /hbase >> $output 
# check report 

count-'egrep -c "SABNORMAL QUERY" $output' 


if [ $count -eq 0 ]; then 
echo "[OK] Cluster is healthy." >> $output 
else 


echo "[ABNORMAL] Cluster is abnormal! " >> $output 

# Get the last matching entry in the report file 

last entry-'egrep "SABNORMAL QUERY" $output | tail -1' 
echo " ($count) $1ast entry" 

exit SSTATE CRITICAL ^ 

fi 


* HDFS usage 

dfs remaining-'curl -s http://masterl: 50070/dfshealth. jsp legrep - 
o "DFS Remaining$. *$" | egrep -o "[0-9]*N. [0-9] * 

dfs remaining word-"DFS Remaining$: S$(dfs remaining]$" 

echo "$dfs remaining word" »» $output 

# check HDFS usage 

dfs remaining-'echo $dfs remaining | awk -F '.' '(print $1}'' 
if [ $dfs remaining -1t ŞDFS | REMAINING CRITICAL ]; then 
echo "Low DFS space. $dfs remaining word" 

exit status-$STATE CRITICAL 

elif [ Sdfs | remaining -lt SDFS | REMAINING WARNING ]: then 
echo "Low DFS space. $dfs remaining word" 

exit status-SSTATE WARNING 

else E 

echo "HBase check OK - DFS and HBase healthy. 

$dfs remaining word" 

exit status-$STATE OK 

fi 

exit Sexit status 


2) 改变 文件 权限 。 使 用 下 面 的 命令 更 改 文件 读 写 权限 : 


chmod 755 /usr/lib64/nagios/plugins/check hbase 


3) 更 改 NRPE 配 置 。 在 配置 文件 /etc/nagios/nrpe.cfg 中 添加 命令 行 ， 代 码 如 下 : 


command[check hbase]-/usr/lib64/nagios/plugins/check hbase 


4) 重启 服务 。 


/etc/init.d/nrpe restart 


(2) Nagios 服 务 端 机 器 


根据 下 面 的 代码 更 改 配置 并 重启 服务 程序 。 将 下 面相 关 的 代码 添加 到 /etc/nagios/conf.d/services.cfg 配 置 文件 中 ， 并 重启 Nagios 服 务 程序 。 


4 check hbck, fsck, and HDFS usage 
define servicet 
use generic-service 


host name hbase-rsi 

normal check interval 5 

service description hbck/fsck report and DFS usage check 
check command check nrpe larg! check hbase 


ł 


(3) 通过 Web 页 面 查 添加 的 监 


从 图 11-12 中 可 以 看 出 ， 在 服务 的 最 后 一 项 “hbck/fsck report and DFS usage check” 服 务 已 经 添加 成 功 ， 该 项 的 状态 是 “CRITICAL”， 后 面 有 检测 时 间 和 状态 原因 等 信息 。 添 加 新 服务 的 整个 过 程 
相对 简单 ， 只 要 对 Nagios 服 务 端 和 监控 端的 角色 区 分 清楚 ， 一 般 不 会 遇 到 什么 问题 ， 整 个 安装 和 添加 过 程 非常 流畅 。 
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图 11-12 添加 新 监控 服务 后 的 Nagios 管 理 页 面 


11.7 ”故障 处 理 


分 布 式 集群 出 现 故障 是 非常 常见 的 事情 ，HBase 也 不 例外 。 每 次 故障 出 现 ， 都 有 一 定 的 方法 来 解决 。 在 处 理 HBase 故 障 过 程 中 ， 总 是 先 从 Master 的 日 志 开始 ， 这 就 是 解决 HBase 故 障 的 方法 之 一 。 将 这 
些 方法 总 结 一 下 ， 大 概 可 分 为 三 类 。 


方法 一 : 一 般 情况 下 ，Master 日 志 总 是 一 行 一 行 地 重复 信息 。 如 果 不 是 这 样 ， 则 说 明 集 群 有 问题 。 


方法 二 : 错误 很 少 单独 出 现 。 通 常 是 某 一 个 地 方 出 了 问题 ， 引 起 多 处 大 量 异常 和 调用 栈 跟踪 信息 。 遇 到 这 样 的 错误 ， 最 好 的 办 法 是 往 上 查 日 志 ， 找 到 最 初 的 异常 。 


方法 三 : RegionServer“ 自 杀 ” 是 正常 现象 。 当 某 些 错误 发 生 时 ， 会 导致 它们 产生 “自杀 ”行为 。 如 果 ulimit 和 xcievers 没 有 修改 ，HDFS 将 无 法 运转 正常 ， 在 HBase 看 来 ，HDFS 死 掉 了 ， 会 导致 该 情 
况 。 还 有 一 种 原因 是 ，RegionServer 执 行 了 一 个 长 时 间 的 GC 操作 ， 这 个 时 间 超 过 了 ZooKeeper 的 会 话 时 长 。 


方法 当然 不 止 这 么 多 ， 这 些 是 比较 常见 ， 并 且 可 以 抽象 出 来 的 ， 其 他 的 很 多 异常 情况 都 是 “点 ”， 属 于 非常 细节 的 内 容 。 这 些 异常 将 在 下 面 内 容 中 详细 介绍 。 


11.7.1 ”问题 咨询 渠道 


首先 ， 可 以 请 求 加 入 HBase 的 邮件 列表 ， 列 表 有 多 种 ， 针 对 不 同 的 用 户 有 下 | 


的 划分 方式 : 


Ej 


* User List 


* Developer List 


* Commits List 


* Issues List 


* Builds List 


其 次 ， 对 于 User 和 Developer 列 表 的 所 有 邮件 内 容 ，search-hadoop.com 都 做 了 索引 ， 很 适合 做 历史 检索 ， 有 问题 时 先 在 这 里 查询 。 


再 次 ，HBase 的 项 目 流程 管理 通过 官方 RA 系统 完成 ， 这 些 JIRA 都 是 对 外 开放 的 ， 所 以 可 以 查看 这 些 JIRA 信 息 ， 对 于 问题 的 解决 和 新 特性 的 跟踪 都 非常 有 帮助 。 


117.2 ”常用 日 志 信 息 


HBase 对 应 的 比较 重要 的 日 志 大 概 有 7 类 ， 重 要 日 志 的 位 置 如 下 (4$(usen} 是 启动 服务 的 用 户 ，$thostnamej 是 主机 和 名称) : 
NameNode: SHADOOP HOME/logs/hadoop-$ {user }-namenode-$ {hostname} . log 

DataNode: $HADOOP_HOME/logs/hadoop-$ (user) -datanode-$ {hostname} . log 

JobTracker: S$HADOOP HOME/logs/hadoop-$ (user]-jobtracker-$ {hostname} .1og 

TaskTracker: SHADOOE HOME/logs/hadoop-$ (user) -jobtracker-$ (hostname) .1og 

HMaster: SHBASE HOME/logs/hbase-$ (user)-master-$ (hostname].log 

RegionServer: $HBASE HOME/logs/hbase-$ [user]-regionserver-$ (hostname].log 

ZooKeeper: /tmp/$ (user) -$ (group) /zookeeper 


1. 日 志 的 位 


NameNode 的 日 志 在 NameNode 节 点 上 。HBase Master 通 常 也 运行 在 NameNode 节 点 上 ， 对 于 小 一 点 的 集群 ，JobTracker 也 可 能 运行 在 NameNode 节 点 上 面 ， 所 以 这 台 机 器 上 可 能 存在 三 类 日 


F 
o 


当然 ， 查 找 日 志 的 位 置 ， 关 键 就 是 看 日 志 对 应 的 服务 启动 在 哪 台 物 理 节点 上 。 所 以 ， 对 此 ZooKeeper 的 日 志 存 放 在 启动 ZooKeeper 集 群 的 每 台 节 点 上 。 每 台 DataNode 节 点 上 会 有 其 相关 的 
志 ，RegionServer 也 在 该 节点 上 ， 对 应 也 有 一 份 RegionServer 的 日 志 。 如 果 TaskTracker 也 启动 ， 也 会 有 其 日 志 数 据 。 


但 是 ，HBase 相 关 的 这 些 日 志 的 位 置 都 可 以 手动 配置 ， 上 面 列举 的 是 默认 的 情况 。 


2JVM 垃 圾 收集 日 志 


为 了 更 好 地 监控 HBase， 一 般 会 启用 JVM 的 GC 日 志 收 集 功能 ， 这 样 可 以 很 好 地 监控 每 次 GC 的 状态 ， 包 括 Full GC。 为 了 启用 JVM GC 的 功能 ， 下 面 的 代码 需要 添加 在 hbase-env.sh 文 件 中 靠 前 的 位 置 。 


export HBASE OPTS-"-XX: +UseConcMarkSweepGC -verbose: gc -XX: *PrintGCDetails -XX: 
*PrintGCTimeStamps -Xloggc: /var/log/hbase/gc-hbase.log" 


最 终 的 日 志 会 输出 到 /var/log/hbase/gc-hbase.log 文 件 中 ， 数 据 的 格式 如 下 : 


21728.203: CMS-concurrent-mark-start] 

21728.253: CMS-concurrent-mark: 0.045/0.050 secs] [Times: user-0.12 sys-0.00, 
real-0.05 secs 

21728.253: CMS-concurrent-preclean-start] 

21728.255: CMS-concurrent-preclean: 0.002/0.002 secs] [Times: user-0.01 sys-0.00, 
real-0.01 secs 

21728.255: GC[YG occupancy: 4096 K (19136 K) ]21728.255: [Rescan (parallel) , 

.0020720 secs]21728.258: [weak refs processing. 0.0001760 secs] 

1 CMS-remark: 44827K (63872K) ] 48923K (83008K) , 0.0023550 secs] 

Times: user-0.01 sys-0.00, real-0.00 secs] 

21728.258: CMS-concurrent-sweep-start] 

21728.274: CMS-concurrent-sweep: 0.015/0.016 secs] [Times: user-0.04 sys-0.00, 

real-0.02 secs 

21728.275: CMS-concurrent-reset-start] 

21728.322: CMS-concurrent-reset: 0.044/0.047 secs] [Times: user-0.06 sys-0.01, 
real-0.04 secs 

21728.620: [GC 21728.620: [ParNew: 19069K-22112K (19136K) , 0.0032040 secs] 

2263K-249580K (91128K) , 0.0033730 secs] [Times: user-0.01 sys-0.01. 
real-0.00 secs 

21728.844: [GC 21728.845: [ParNew: 19082K-22112K (19136K) , 0.0030590 secs] 

6550K-253248K (91128K) , 0.0032540 secs] [Times: user-0.01 sys-0.00, 

eal-0.00 secs 

21728.848: [GC [1 CMS-initial-mark: 51136K (71992K) ] 53322K (91128K) , 0.0027370 secs] 
[Times: user-0.01 sys-0.00, real-0.00 secs] 
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CMS 是 一 种 以 获取 最 短 回 收 停顿 时 间 为 目标 的 收集 器 。 属 于 “标记 -清除 ”类 型 算法 ， 首 先进 行 标 记 ， 即 “Stop The World”， 然 后 执行 清除 操作 。 从 上 面 的 代码 中 可 以 看 出 ，CMS-concurrent- 
mark-start 是 标记 开始 ，CMS-concurrent-preclean-start 是 清除 预 处 理 开 始 ，CMS-concurrent-sweep-start 表 示 清 除开 始 ，CMS-concurrent-sweep 表 示 清 除 操作 等 ， 里 面 涉及 的 步骤 不 少 ， 但 是 非常 
有 规律 ， 其 实 整个 过 程 就 是 CMS 回收 垃圾 的 步骤 和 每 个 步骤 收集 时 间 的 一 个 日 志 汇总 。 


回 


回 


11.7.3 ”常用 故障 调试 工具 


当 任何 一 个 系统 出 现 问题 时 ， 必 须要 有 足够 的 调试 工具 才 可 以 快速 解决 问题 。HBase 是 一 个 比较 负责 的 分 布 式 系统 ， 所 以 更 需要 强大 的 工具 支持 。 本 节 的 内 容 将 详细 介绍 HBase 故 障 调试 中 所 需要 的 大 
部 分 工具 。 


1. 内 置 工 


(1) Web 监 控 界 面 


HBase 自 带 了 简单 的 页 面 监控 工具 ， 即 Web 界 面 方式 ， 这 个 特点 与 Hadoop 非 常 相 似 。 其 中 ，HBase Master 启 动 一 个 默认 端口 为 60010 的 界面 ， 如 图 11-13 所 示 。 从 这 些 界面 中 可 以 获取 集群 属性 、 元 


数据 表 、 用 户 表 、RegionServer、Region、ZooKeeper 和 执行 任务 等 相关 信息 。 


RegionServer 启 动 一 个 默认 端口 


Master: hbase-master:60000 


Local logs. Thrznd Dum». Loz Level. Debue dum. 


为 60030 的 界面 ， 如 图 11-14 所 示 。 从 界面 中 可 以 获取 RegionServer 属 性 、Region 的 元 数据 、Region 请 求 数量 等 信息 。 
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图 11-13  HBase Master Web UI 界面 


(2) ZooKeeper 命 令 行 工 具 zkcli 


zkdli 是 调试 ZooKeeper 相 关 问 题 的 有 用 工具 。 


在 集群 某 个 节点 上 ， 执行 hbase zkcli 命 令 可 以 直接 进入 与 ZooKeeper 队 列 的 交互 命令 行 界面 ， 其 帮助 信息 如 下 : 


ZooKeeper -server host: port cmd args 
connect host: port 
get path [watch] 
ls path [watch] 
set path data [version] 
rmr path 
delquota [-n|-b] path 
quit 
printwatches on|off 
create [-s] [-e] path data acl 
stat path [watch] 
close 
ls2 path [watch] 
history 
listquota path 
setAcl path acl 
getAcl path 
sync path 
redo cmdno 
addauth scheme auth 
delete path [version] 
setquota -n|-b val path 
[zk: node-128-93, node-128-92, node-128-91, node-128-90: 2181 (CONNECTED) 1] 


RegionServer: js, 60020, 1385026284044 
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图 11-14 HBase RegionServer Web UI 界面 


通过 该 工具 可 以 查看 ZooKeeper 的 连接 信息 是 否 正常 ， 显 示 、 创 建 、 设 置 、 删 除 路 径 信息 、 添 加 验证 、 查 看 历史 命令 等 。 


2. 其 他 协助 工具 


(1) tail/more/less 


tail/more/less 都 是 Linux 查 看 文件 内 容 的 命令 行 工 具 。 可 以 通过 这 些 命令 查看 HBase 集 群 所 生成 的 几 类 文件 ， 并 根据 文件 中 的 异常 信息 推断 故障 所 在 。 


(2) top 


top 是 一 个 很 重要 的 工具 ， 用 来 查看 节点 上 各 个 进程 的 资源 占用 情况 ， 能 监控 当前 机 器 的 负载 、CPU 使 用 率 、 内 存 使 用 情况 以 及 每 个 进程 的 资源 使 用 情况 。 下 面 是 一 个 生产 环境 的 具体 示例 : 


top - 13: 54: 51 up 48 days, 23: 48, 4 users, load average: 0.81, 1.57, 2.62 
Tasks: 157 total, 1 running, 155 sleeping, 0 stopped, 1 zombie 
CpuO : 0.75us, 0.3$sy, 0.0%ni, 97.7%id,  1.3$wa, 0.0%hi, 0.0%si, 0.0%st 
Cpul : 0.0%us, 0.0%sy, 0.0%ni, 100.0%id, 0.0%wa, 0.0%hi, 0.0%si,  O.0$st 
Cpu2 : 0.05us, 0.0%sy, 0.0%ni, 100.0%id, 0.0%wa, 0.0%hi, 0.0%si,  O.0$st 
Cpu3 : 3.0%us， 0.0%sy, 0.0%ni, 7.0%id, 0.0%wa, 0.0%hi, 0.0%si,  O.0$st 
Cpu4 : 0.3$us, 2.7%sy, 0.0%ni, 97.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st 
Cpu5 : 0.05us, 0.0$sy, 0.0%ni, 100.0%id, 0.0%wa, 0.0%hi, 0.0%si,  O.0$st 
Cpu6 0.0%us, 0.3$sy, 0.0%ni, 99.7%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st 
Cpu7 : 0.0%us， 0.0%sy, 0.0%ni, 100.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st 
Mem: 32915736k total, 28112340k used， 4803396k free， 232684k buffers 
Swap: 4192924k total, 2030072k used， 2162852k free, 20916616k cached 

PID USER PR NI VIRT RES SHR S $CPU $MEM TIME+ COMMAND 
22178 hbase 20 0 2524m 1.8g 12m S 93.1 5.8 2353: 26 java 

1489 hdfs 24 0 4797m 1.8g 12m S 1.7 5.6 1964: 33 java 

4770 hbase 21 0 2519m 164m 12m S 0.0 0.5 4: 03.63 java 
28197 hbase 18 0 2482m 83m 14m S 0.0 0.3 0: 01.64 java 

2500 root 15 0 2130m 5936 1372 S 0.0 0.0 0: 02.53 python 
22744 td-agent 15 0 168m 3844 972 S 0.0 0.0 0: 00.00 ruby 


对 于 top 命 令 参数 这 里 不 做 详细 讲解 ， 不 熟悉 需要 详细 了 解 的 读者 可 以 参考 《 鸟 哥 的 Linux 私 房 菜 》[1] 中 的 介绍 。 
(3) JSP 


JSP (Java Virtual Machine Process Status Tool) 是 JDK 1.5 提 供 的 一 个 显示 当前 所 有 Java 进 程 pid 的 命令 ,简单 实用 ， 非 常 适合 在 Linux/Unix 平 台 上 查看 当前 Java 进 程 的 一 些 简单 情况 。 在 集群 
Master 节 点 上 执行 jps 命 令 会 得 到 类 似 下 面 的 输出 信息 : 


15946 ThriftServer 
13766 NameNode 
23830 Jps 

25620 HMaster 


其 中 ， 第 一 列 是 进程 ID， 第 二 列 是 进程 简短 名 称 。ThriftServer 是 HBase 集 群 的 第 一 代 Thrift 进 程 ， 提 供 对 外 访问 服务 。NameNode 和 HMaster 的 含义 相信 读者 可 以 根据 名 称 猜 测 出 ， 分 别 是 Hadoop 
NameNode 和 HBase Master 对 应 的 服务 进程 。 


(4) jstack 


jstack (stack trace for java) 是 Java 扒 栈 跟 踪 工具 ， 用 于 生成 JVM 虚 拟 机 当前 时 刻 的 线程 快照 信息 。 而 线程 快照 是 当前 虚拟 机 每 个 线程 正在 执行 方法 的 堆栈 的 集合 ，jstack 的 用 途 是 定位 线程 出 现 长 时 
间 停 顿 的 原因 ， 如 线程 死 锁 、 死 循环 、 请 求 外 部 资源 导致 长 时 间 等 待 等 。 


线程 出 现 停顿 的 时 候 ， 通 过 jstack 查 看 每 个 线程 的 调用 堆栈 ， 就 能 知晓 一 直 等 待 的 线程 在 后 台 做 哪些 事情 ， 或 等 待 哪些 资源 。 下 面 的 代码 示例 是 HBase Master 进 程 的 堆栈 信息 : 


2013-12-25 14: 24: 44 
Full thread dump Java HotSpot (TM) 64-Bit Server VM (20.12-b01 mixed mode) : 
"Attach Listener" daemon prio-10 tid-0x000000005a8632800 nid-0x676f waiting on 
condition [0x0000000000000000] 
java.lang.Thread.State:  RUNNABLE 
"IPC Client (47) connection to hbase-master/192.168.1.182: 9000 from hadoop" 
daemon prio-10 tid-0x00002aaad41c8800 nid-0x6750 in Object.wait () [0x000000004aeb2000] 
java.lang.Thread.State:  TIMED WAITING (on object monitor) 
at java.lang.Object.wait (Native Method) 
at org.apache.hadoop.ipc.Client$Connection.waitForWork (Client.java: 702) 
- locked «0x00000003fb8ed808» (a org.apache.hadoop.ipc.Client$Connection) 
at org.apache.hadoop.ipc.Client$Connection.run (Client.java: 744) 
"12656331158qtp-39288954-106" prio-10 tid-0x00002aaad445b800 nid-0x7351 in 
Object.wait () [0x0000000045dc1000] 
java.lang.Thread.State:  TIMED WAITING (on object monitor) 
at java.lang.Object.wait (Native Method) 
at org.mortbay.thread.QueuedThreadPool$PoolThread.run (QueuedThreadPool.java: 626) 
- locked «0x000000040601d1e8» (a org.mortbay.thread.QueuedThreadPool$PoolThread) 
"LeaseChecker" daemon prio-10 tid-0x000000005ab12800 nid-0x7dd9 waiting on 
condition [0x000000004a7ab000] 
java.lang.Thread.State: TIMED WAITING (sleeping) 
at java.lang.Thread.sleep (Native Method) 
at org.apache.hadoop.hdfs.DFSClient$LeaseChecker.run (DFSClient.java: 1376) 
at java.lang.Thread.run (Thread.java: 662) 
"MASTER TABLE OPERATIONS-hbase-master, 60000. 1385046518449-0" prio-10 tid-0x000000005aa89800 
nid-0x7dbf waiting on condition [0x000000004b05b4000] 
java.lang.Thread.State: WAITING (parking) 
at sun.misc.Unsafe.park (Native Method) 
- parking to wait for  «0x0000000405647450» (a java.util.concurrent.locks. 
AbstractQueuedSynchronizer$ConditionObject) 
at java.util.concurrent.locks.LockSupport.park (LockSupport.java: 156) 
at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.await 
(AbstractQueuedSynchronizer.java: 1987) 
at java.util.concurrent.LinkedBlockingQueue.take (LinkedBlockingQueue.java: 399) 
at java.util.concurrent.ThreadPoolExecutor.getTask (ThreadPoolExecutor.java: 947) 
at java.util.concurrent.ThreadPoolExecutor$Worker.run (ThreadPoolExecutor.java: 907) 
at java.lang.Thread.run (Thread.java: 662) 
"master-hbase-master, 60000, 1385046518449-SendThread (hbase-regionserver-62: 2181) " 
daemon prio-10 tid-0x00002aaad4048800 nid-0x650e runnable [0x0000000049da1000] 
java.lang.Thread.State:  RUNNABLE 
at sun.nio.ch.EPollArrayWrapper.epollWait (Native Method) 
at sun.nio.ch.EPollArrayWrapper.poll (EPollArrayWrapper.java: 210) 
at sun.nio.ch.EPollSelectorImpl.doSelect (EPollSelectorImpl.java: 65) 
at sun.nio.ch.SelectorImpl.lockAndDoSelect (SelectorlImpl.java: 69) 
- locked «0x000000040573ae48» (a sun.nio.ch.Util$2) 
- locked «0x000000040573ae60» (a java.util.CollectionsSUnmodifiableSet) 
- locked «0x0000000405734488» (a sun.nio.ch.EPollSelectorImpl) 
at sun.nio.ch.SelectorImpl.select (SelectorImpl.java: 80) 
at org.apache.zookeeper.ClientCnxnSocketNIO.doTransport (ClientCnxnSocketNIO.java: 274) 
at org.apache.zookeeper.ClientCnxn$SendThread.run (ClientCnxn.java: 1035) 


Erb, java.lang.Thread.StateWAITING (parking) 表示 某 个 线程 的 状态 ，WAITING (parking) 表示 正在 等 待 (条 件 等 待 ， 如 资源 等 ) ; RUNNABLE 表 示 正 在 运行 ; TIMED WAITING (on 
object monitor) 表示 线程 同步 的 等 待 ， 一 般 和 “ 锁 ” 相 关 。 


还 可 以 从 堆栈 的 方法 名 称 上 知晓 该 线程 正在 进行 的 操作 ， 例 如 示例 代码 中 最 后 一 个 线程 是 ZooKeeper 通 信 的 一 个 线程 ， 从 org.apache.zookeeper.ClientCnxnSocketNIO.doTransport 方 法 可 以 得 出 该 
结论 。 


(5) OpenTSDB 


开源 监控 系统 OpenTSDB， 使 用 HBase 存 储 所 有 的 时 序 (无 须 采样 ) 来 构建 一 个 分 布 式 、 可 伸缩 的 时 间 序 列 数据 库 。 它 支持 秒 级 数据 采集 所 有 Metrics， 支 持 永久 存储 ， 可 以 做 容量 规划 ， 并 很 容易 地 接 
入 现 有 的 报警 系统 。OpenTSDB 可 以 从 大 规模 的 集群 (包括 集群 中 的 网 络 设备 、 操 作 系 统 、 应 用 程序 ) 中 获取 相应 的 Metrics 并 进行 存储 、 索 引 以 及 服务 ， 从 而 使 得 这 些 数 据 更 容易 让 人 理解 等 。 
OpenTSDB 是 Ganglia 的 竞争 产品 ， 因 为 它 使 用 HBase 来 存储 所 有 的 时 序 而 无 须 采样 。 


对 于 运 维 人 员 而 言 ，OpenTSDB 可 以 获取 基础 设施 和 服务 的 实时 状态 信息 ， 展 示 集 群 的 各 种 软 硬 件 错误 ， 性 能 变化 以 及 性 能 瓶颈 。 对 于 管理 者 而 言 ，OpenTSDB 可 以 衡量 系统 的 SLHA， 理 解 复杂 系统 间 
的 相互 作用 ， 展 示 资 源 消耗 情况 、 集 群 的 整体 作业 情况 ， 可 以 用 以 辅助 预算 和 集群 资源 协调 。 图 11-15 是 OpenTSDB 对 MySQL 进 行 监控 的 可 视 化 图 表 。 
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图 11-15 OpenTSDB 监控 可 视 化 图 表 


11.7.4 ”客户 端 故障 排查 


本 节 将 介绍 一 些 常 见 的 客户 端 故 障 以 及 故障 的 解决 办 法 。 


1. 超 时 异常 


ScannerTimeoutException 或 UnknownScannerException 是 客户 端 访问 时 非常 常见 的 异常 类 型 。 一 般 引 起 的 原因 是 从 客户 端 到 RegionServer 的 RPC 请 求 超时 。 例 如 ， 如 果 Scan.setCaching 的 值 设 置 
为 100，RPC 请 求 就 要 去 获取 100 行 的 数据 ， 每 100 次 .next () 操作 获取 一 次 数据 。 因 为 数据 是 以 大 块 的 形式 传 到 客户 端的 ， 就 可 能 造成 超时 。 


所 以 ,解决 办 法 是 将 这 个 setCaching 的 值 调 小 ， 但 是 该 值 不 能 设置 太 小 ， 否 则 影响 性 能 。 


2 长 时 间 暂 停 问 题 


压缩 发 生 时 客户 端 长 时 间 停 顿 ， 也 是 经 常 碰 到 的 问题 。 场 景 一 般 是 客户 端正 在 插入 大 量 数据 到 相对 未 优化 的 HBase 集 群 中 时 ， 压 缩 操作 正好 加 重 客户 端 暂 停 时 长 。 解 决 该 问题 只 需要 关闭 列 族 的 压缩 属 
性 即 可 。 但 是 ， 关 闭 对 系统 存储 会 有 一 些 挑战 ， 需 要 用 户 在 存储 和 访问 性 能 之 间 做 一 些 权衡 。 


3. 租 期 异常 


LeaseException 也 是 一 种 常见 异常 ， 发 生 在 客户 端 到 RegionServer 取 数据 的 时 人 息 。 异 常 的 源头 是 调用 RegionServer 的 next () 方法 时 ， 过 慢 或 者 出 现 停顿 。 解 决 该 问题 的 方法 是 修改 配置 文件 ， 需 要 
修改 部 分 如 下 : 


<property> 
«name»hbase.regionserver.lease.period«/name» 
«value»60000«/value» 
Xdescription»HRegion server lease period in milliseconds. Default is 
60 seconds. Clients must report in within this period else they are 
considered dead.«/description» 

«/property» 


4.ZooKeeper 连 接 错 误 


错误 异常 信息 如 下 所 示 : 


13/12/05 11: 26: 41 WARN zookeeper.ClientCnxn: Session 0x0 for server null, 
unexpected error, closing socket connection and attempting reconnect 
java.net.ConnectException: Connection refused: no further information 

at sun.nio.ch.SocketChannellImpl.checkConnect (Native Method) 

at sun.nio.ch.SocketChannelImpl.finishConnect (Unknown Source) 

at org.apache.zookeeper.ClientCnxn$SendThread.run (ClientCnxn.java: 1078) 
13/12/05 11: 26: 43 INFO zookeeper.ClientCnxn: Opening socket connection to 
server localhost/127.0.0.1: 2181 
13/12/05 11: 26: 44 WARN zookeeper.ClientCnxn: Session Ox0 for server null, 
unexpected error, closing socket connection and attempting reconnect 
java.net.ConnectException: Connection refused: no further information 

at sun.nio.ch.SocketChannellImpl.checkConnect (Native Method) 

at sun.nio.ch.SocketChannelImpl.finishConnect (Unknown Source) 


at org.apache.zookeeper.ClientCnxn$SendThread.run (ClientCnxn.java: 1078) 


一 般 来 讲 ， 导 致 该 异常 有 两 方面 原因 : ZooKeeper 裔 溃 或 者 网 络 不 可 达 问 题 。 解 决 该 异常 也 需要 从 这 两 方面 着 手 ， 首 先 检查 网 络 是 否 存在 不 可 达 状 况 。 如 果 没 有 ， 则 使 


存在 ， 之 后 查看 ZooKeeper 日 志 信息 。 


5. 安 全 客户 端 不 能 连接 


在 使 用 客户 端 访问 带 有 安全 特性 的 时 候 ， 会 遇 到 HBaseGSSException 异 常 。 该 异常 的 描述 信息 如 下 : 


jps 检 查 ZooKeeper 进 程 是 否 


GSSException: No valid credentials provided (Mechanism level: Attempt to obtain 


new INITIATE credentials failed! (null) ) . . . Caused by: javax.security. 
auth.login.LoginException: Clock skew too great 


Cause: Kerberos requires the time on the KDC and on the client to be loosely 


synchronized. (The default is within 5 minutes.) If that's not the case, 
you will get this error. 


解决 该 问题 的 方法 如 下 : 


首先 ， 检 查 是 否 具备 有 效 的 Kerberos[ 权 证 (ticket) 。 测 试 在 凭证 缓存 中 的 权证 。 如 果 没 有 ， 必 须 运 行 kinit 获 取 一 张 权证 。 


其 次 ， 设 置 javax.security.auth.useSubjectCredsOnly 属 性 。 将 该 属性 的 值 设置 为 false。 


再 次 ，JDK1.6.0_26 之 前 的 版 本 存在 Bug， 与 Kerberos 1.8.1 及 以 上 的 版 本 不 兼容 ， 所 以 需要 确定 JDK 和 Kerberos 版 本 。 


最 后 ， 需 要 确认 已 经 安装 JCE (Java Cryptography Extension) ， 确 保 JCE 的 JAR 包 在 服务 器 和 客户 端 节点 的 CLASSPATH 中 。 可 能 还 需要 下 载 JCE 策 略 文件 ， 放 到 $UAVA_HOMEMIib/security 目 录 


T. 


11.7.5 


MapReduce 故 障 排查 


本 节 将 介绍 一 些 常见 的 MapReduce 访 问 HBase 集 群 的 故障 以 及 故障 的 解决 办 法 。 


1. 加 载 文件 异常 


运行 MapReduce 作 业 访问 HBase 的 时 候 ， 例 如 使 用 mportTsv 导 入 数据 时 ， 有 时 候 会 遇 到 下 面 的 异常 信息 : 


java.lang.IllegalArgumentException: Can't read partitions file 


at org.apache.hadoop.hbase .mapreduce .hadoopbackport .TotalOrderPartitioner. 
setConf (TotalOrderPartitioner.java: 111) 

at org.apache.hadoop.util.ReflectionUtils.setConf (ReflectionUtils.java: 62) 

at org.apache.hadoop.util.ReflectionUtils.newInstance (ReflectionUtils.java: 117) 

at org.apache.hadoop.mapred.MapTask$NewOutputCollector.«init» (MapTask.java: 560) 

at org.apache.hadoop.mapred.MapTask.runNewMapper (MapTask.java: 639) 

at org.apache.hadoop.mapred.MapTask.run (MapTask.java: 323) 

at org.apache.hadoop.mapred.LocalJobRunner$Job.run (LocalJobRunner.java: 210) 


Caused by: java.io.FileNotFoundException: File partition.lst does not exist. 


at org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus (RawLocalFileSystem.java: 383) 

at org.apache.hadoop.fs.FilterFileSystem.getFileStatus (FilterFileSystem. java: 251) 

at org.apache.hadoop.fs.FileSystem.getlength (FileSystem.java: 776) 

at org.apache.hadoop.io.SequenceFile$Reader.«init» (SequenceFile. java: 1424) 

at org.apache.hadoop.io.SequenceFile$Reader.«init» (SequenceFile.java: 1419) 

at org.apache.hadoop.hbase .mapreduce.hadoopbackport.TotalOrderPartitioner. 
readPartitions (TotalOrderPartitioner.java: 296) 


看 关键 调 


致 的 问题 ， 需 要 用 户 在 执行 程序 的 时 候选 择 在 集群 的 客户 端 节 点 上 执行 。 


2.NoSuchMethodError 异 常 


使 


importtsv 工 具 导 入 数据 的 时 候 ， 可 能 会 遇 到 NoSuchMethodError 异 常 。 从 下 面 代 码 的 异常 可 以 看 到 是 没有 找到 guava 包 的 precomputeCharMatcher。 导 致 该 问题 的 根源 在 于 Hadoop 集 群 lib 
录 下 google-collet-1.0.jar 与 guava-r09.jar 版 本 冲突 。 解 决 方法 是 删除 集群 的 JAR 包 google-collet-1.0.jar,， 或 者 替换 成 guava-r09.jar。 


部 分 at org.apache.hadoop.mapred.LocalJobRunner$Job.run，LocalJobRunner 用 于 执行 本 地 作业 ， 而 不 是 集群 ， 往 往 在 使 用 MapReduce 访 问 的 时 候 会 发 生 这 样 的 事情 ， 是 粗心 大 意 导 


2013-12-06 18: 01: 56, 532 FATAL org.apache.hadoop.mapred.Child: Error running child: 


at 
at 
at 
at 
at 
at 
at 
at 
at 
at 
at 
at 
at 


java.lang.NoSuchMethodError:  com.google.common.base.Platform.precomputeCharMatcher 
(Lcom/google/common/base/CharMatcher; ) Lcom/google/common/base/CharMatcher:; 
com.google.common.base.CharMatcher.precomputed (CharMatcher.java: 662) 
com.google.common.base.CharMatcher.«clinit» (CharMatcher.java: 69) 
com.google.common.base.Splitter.on (Splitter.java: 121) 
org.apache.hadoop.hbase.mapreduce.ImportTsv$TsvParser.«init» (ImportTsv.java: 96) 
org.apache.hadoop.hbase.mapreduce.TsvImporterMapper.setup (TsviImporterMapper.java: 81) 
org.apache.hadoop.mapreduce.Mapper.run (Mapper.java: 142) 
org.apache.hadoop.mapred.MapTask.runNewMapper (MapTask.java: 764) 
org.apache.hadoop.mapred.MapTask.run (MapTask.java: 370) 
org.apache.hadoop.mapred.Child$4.run (Child.java: 255) 
java.security.AccessController.doPrivileged (Native Method) 
javax.security.auth.Subject.doAs (Subject.java: 396) 
org.apache.hadoop.security.UserGroupInformation.doAs (UserGroupInformation.java: 1121) 
org.apache.hadoop.mapred.Child.main (Child.java: 249) 


11.7.6 


网 络 故障 排查 


该 部 分 也 属于 调 优 的 内 容 。 


二 7 


RegionServer 相 关 问 题解 决 


本 节 将 介绍 一 些 常见 的 RegionServer 相 关 故 障 以 及 故障 的 解决 办 法 。 


1. 压 缩 库 异常 


如 果 遇 到 下 面 代码 所 示 的 异常 信息 ， 说 明 LZO 压 缩 库 出 现 了 异常 。 因 为 LZO 压 缩 算法 所 需 依赖 需要 安装 在 集群 中 的 所 有 节点 上 ， 如 果 某 个 


启 机 器 或 者 重 装 LZO 库 。 


常见 网 络 故障 分 为 两 类 : 不 可 达 和 网 络 峰值 。 对 于 不 可 达 问 题 ， 需 要 定位 网 卡 、 网 线 、 网 络 驱动 、 防 火 墙 、 路 由 /交换 机 等 偏 硬件 的 组 件 中 哪 部 分 出 现 问题 ， 若 
; 而 针对 网 络 峰值 问题 ， 这 里 并 不 是 一 种 故障 。 通 过 Ganglia 监 控 集 群 时 ， 如 果 出 现 周期 性 的 网 络 峰 值 ， 并 且 网 络 峰 值 已 经 超过 既定 阔 值 (经 验 值 ) ， 


节点 的 压缩 库 


备 一 此 : 


需要 对 合并 和 


出 现 问题 ， 


些 运 维 知识 ， 解 决 该 问题 不 是 难 


QMemStore 的 flush 策 略 做 一 些 调整 ， 


iH 


上 相关 的 异常 信息 。 解 决 办 法 是 


13/12/06 01: 32: 15 ERROR lzo.GPLNativeCodeLoader: Could not load native gpl library 
java.lang.UnsatisfiedLinkError: no gplcompression in java.library.path 

at java.lang.ClassLoader.loadLibrary (ClassLoader.java: 1734) 

at java.lang.Runtime.loadLibrary0 (Runtime.java: 823) 

at java.lang.System.loadLibrary (System.java: 1028) 


2.Regionserver 线 程 阻塞 


如 果 使 用 IDK1.6.0_21 及 以 下 的 版 本 ， 当 查看 进程 堆栈 信息 的 时 候 ， 发 现 很 多 线程 都 是 阻塞 状态 ， 示 例 代 码 如 下 : 


"IPC Server handler 2 on 60020" daemon prio-10 tid=0x0000000048d0d800 nid-0x7550 
waiting on condition [0x0000000044b66000] 
java.lang.Thread.State: WAITING (parking) at sun.misc.Unsafe.park (Native Method) 
- parking to wait for «0x00002aaac04a9808» (a java.util.concurrent.locks. 
ReentrantLock$NonfairSync) 
at java.util.concurrent.locks.LockSupport.park (LockSupport.java: 158) 
at java.util.concurrent.locks.AbstractQueuedSynchronizer.parkAndCheckInterrupt 
(AbstractQueuedSynchronizer.java: 747) 
at java.util.concurrent.locks.AbstractQueuedSynchronizer.acquireQueued 
(AbstractQueuedSynchronizer.java: 778) 
at java.util.concurrent.locks.AbstractQueuedSynchronizer.acquire 
(AbstractQueuedSynchronizer.java: 1114) 
at java.util.concurrent.locks.ReentrantLock$NonfairSync.lock (ReentrantLock.java: 186) 
at java.util.concurrent.locks.ReentrantLock.lock (ReentrantLock.java: 262) 
at java.util.concurrent.DelayQueue.offer (DelayQueue.java: 83) 
at java.util.concurrent.DelayQueue.add (DelayQueue.java: 71) 
at org.apache.hadoop.hbase.regionserver.Leases.renewLease (Leases.java: 194) 


导致 该 问题 的 具体 原因 还 没有 最 终 确 认 ， 有 可 能 是 JVM 的 Bug， 解 决 办 法 是 将 -XX:+UseMembar 添 加 到 conf/hbase-env.sh 文 件 中 。 该 参数 指定 JVM 使 用 memory barrier 的 参数 ， 默 认 是 不 打开 的 ， 
即使 用 独立 的 内 存 页 来 设置 状态 。 


3.too many open files 异 常 


too many open files (打开 过 多 文件 ) 的 异常 信息 如 下 : 


2013-12-07 01: 24: 17, 336 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: 
Disk-related IOException in BlockReceiver constructor. Cause is java.io. 
IOException: Too many open files 
at java.io.UnixFileSystem.createFileExclusively (Native Method) 
at java.io.File.createNewFile (File.java: 883) 


因为 HBase 是 数据 库 ， 会 在 同一 时 间 使 用 很 多 的 文件 句柄 。 大 多 数 Linux 系 统 使 用 的 默认 值 1024 是 不 能 满足 要 求 的 ， 如 果 打 开 文 件数 超过 1024， 则 会 抽出 上 面 的 异常 信息 。 对 于 最 大 打开 文件 数 是 
1024， 可 以 执行 ulimit-a 命 令 ， 获 取 的 输出 信息 如 下 : 


core file size (blocks, -c) 0 

data seg size (kbytes, -d) unlimited 
Scheduling priority (ce) 0 

file size (blocks, -f) unlimited 
pending signals (-i) 61563 

max locked memory (kbytes, -1) 64 

max memory size (kbytes, -m) unlimited 
open files (C-n) 1024 

pipe size (512 bytes, -p) 8 

POSIX message queues (bytes, -q) 819200 
real-time priority (-r 0 

stack size (kbytes, -s) 8192 

cpu time (seconds, -t) unlimited 
max user processes (-u) 61563 
virtual memory (kbytes, -v) unlimited 
file locks (-x) unlimited 


解决 该 异常 的 方式 是 修改 最 大 文件 句柄 限制 ， 可 以 设置 到 10k。 大 致 的 数学 运算 如 下 : 每 列 族 至 少 有 1 个 存储 文件 (StoreFile) 可 能 达到 5~6 个 ， 如 果 Region 有 压力 。 将 每 列 族 的 存储 文件 平均 数目 和 
Regionserver 的 平均 Region 数 目 相 乘 。 例 如 : 假设 一 个 模式 有 3 个 列 族 ， 每 个 列 族 有 3 个 存储 文件 ， 每 个 RegionServer 有 500 个 Region，JVM 将 打开 3x3x500=4500 个 文件 描述 符 (不 包含 打开 的 jar 文 件 、 
配置 文件 等 ) 。 


下 面 是 在 Linux 系 统 下 修改 最 大 文件 句柄 限制 的 具体 步骤 。 


在 文件 /etc/securitylimits.conf 最 后 添加 下 面 的 代码 : 


hadoop - nofile 32768 
hadoop soft nproc 32000 
hadoop hard nproc 32000 


可 以 把 代码 中 hadoop 蔡 换 成 运行 HBase 和 Hadoop 的 用 户 ， 多 个 用 户 则 每 个 用 户 都 配置 这 三 行 。 


还 需要 对 /etc/pam.d/common-session 做 一 些 配置 ， 否 则 在 /etc/security/limits.conf 上 的 配置 不 会 生效 。 将 下 面 的 代码 放 到 /etc/pam.d/common-session 中 ， 然 后 注销 登录 ， 配 置 生效 。 


session required pam limits.so 


4.xceiverCount 异 常 


时 常会 有 “xceiverCount 258 exceeds the limit of concurrent xcievers 256” 的 异常 信息 出 现在 DataNode 的 日 志 中 ， 该 异常 表示 当前 DataNode 同 时 处 理 文件 的 上 限 已 经 超过 256。 解 决 办 法 是 修 
改 配 置 文件 conf/hdfs-site.xml 中 的 xceivers 参 数 ， 至 少 要 设置 为 4096。 然 后 需要 重启 HDFS 相 关 的 节点 。 


<property> 
«name»dfs.datanode.max.xcievers«/name» 
«value»4096«/value» 
«/property» 


5.OutOfMemoryError 错 误 


如 果 DataNode 抛 出 “java.lang.OutOfMemoryErrorunable to create new native thread in exceptions” 的 错误 ， 说 明 ulimit 相 关 的 篇 日 志 参 数 不 能 满足 需求 。 具 体 的 修改 方法 与 “too many 
open files 异 常 ” 相 同 。 


6.YouAreDeadException 异 常 


如 果 遇 到 “No live nodes contain current block” 或 者 YouAreDeadException 这 些 异 常 ， 很 有 可 能 是 操作 系统 的 文件 句柄 溢出 ， 或 者 是 网 络 故 障 导致 节点 无 法 访问 ， 解 决 办 法 可 以 参考 "too many 


open files 异 常 ”中 的 办 法 或 者 核查 集群 的 网 络 配置 。 


7.NotServingRegionException 异 常 


使 


Shel| 或 者 客户 端 访问 的 时 候 ， 会 遇 到 下 面 的 由 于 Region 不 在 线 导致 无 服务 Region 异 常 : 


ERROR: org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed after 
attempts-7, exceptions: 
Nov 09 11: 29: 51 CST 2012, 
org.apache.hadoop.hbase.NotServingRegionException: 
NotServingRegionException: Region is not online: 
1351785117087.338b2da7ed06496c54dc7c963£84b39b. 
Nov 09 11: 29: 52 CST 2012, org.apache.hadoop.hbase.client.ScannerCallable86dc98clb, 
org.apache.hadoop.hbase.NotServingRegionException:  org.apache.hadoop.hbase. 
NotServingRegionException: Region is not online: history servo active5, , 
1351785117087.338b2da7ed06496c54dc7c963£84b39b. T T 

Nov 09 11: 29: 53 CST 2012, org.apache.hadoop.hbase.client.ScannerCallable86dc98clb, 
.apache.hadoop.hbase.NotServingRegionException:  org.apache.hadoop.hbase. 
NotServingRegionException: Region is not online: history servo active5. , 
1351785117087.338b2da7ed06496c54dc7c963£84b39b. 


org.apache.hadoop.hbase.client.ScannerCallable86dc98clb, 
org.apache.hadoop.hbase. 
history servo active5. , 


Fri 


Fri 


Fri 
org 


线 上 ， 而 一 般 HBase 集 群 会 
解决 元 数据 损坏 一 般 使 


使 用 Shel| 方 式 操 作 进 群 的 时 候 ， 例 如 Scan 或 Get， 所 有 或 者 部 分 Region 处 了 


not deployed 状 态 ， 会 抛 出 NotServingRegionException 异 常 。 解 决 的 办 法 集中 在 如 何 让 没有 被 部 署 的 Region 重 新 部 署 到 


下 面 的 方法 : 


晕 决 Region 未 被 部 署 的 情况 ， 但 是 一 旦 集群 中 某 些 Region 一 直 没 有 被 部 署 ， 说 明 这 些 Region 对 应 的 表 或 者 元 数据 出 现 了 问题 。 而 元 数据 损坏 是 导致 这 种 问题 的 最 常见 原因 。 要 


disable ${TABLE NAME] 
hbase hbck -repair S(TABLE NAME) 


掉 。 


如 果 以 上 的 方法 无 效 ， 那 么 先 关闭 RegionServer、Master， 


8.ClosedChannelException 异 常 


启 Master、RegionServer， 然 后 再 执行 上 面 代 码 的 操作 。 


pu SES 
所 以 不 


11.7.8 “Master 相关 问题 解决 


当 HBase 集 群 相 关节 点 断 电 重启 后 ，-ROOT- 和 .META. 元 数据 表 一 直 


"Server handler X on 60020 caught:java.nio.channels.ClosedChannelException” 异 常 不 要 奇怪 ， 


特别 担心 该 异常 ， 出 现 该 异常 是 正常 的 ， 有 可 能 是 网 络 中 断 、 客 户 端 程序 异常 等 原因 造成 的 。 


寻 致 该 异常 的 原因 是 在 RegionServer 向 客户 端 传递 数据 的 过 程 中 ， 客 户 端 突然 被 杀 


在 尝试 分 配 ， 但 无 法 成 功 分 配 ， 导 致 HBase 用 户 表 相关 Region 无 法 分 配 ， 整 个 集群 无 法 提供 对 外 服务 ( 即 元 数据 验证 失败 异常 ) 。 


iP 常 的 原因 是 HBase 集 群 相关 服务 器 断 电 重 启 后， 系统 时 间 被 篡改 ， 导 致 集群 之 间 无 法 进行 数据 同步 。HBase 集 群 重启 过 程 中 ， 因 为 错误 的 系统 时 间 自 改 了 HBase 元 数据 表 ， 而 该 “错误 的 时 间 ” 比 出 错时 


刻 时 间 晚 了 N 个 小 时 ， 而 集群 每 次 启动 都 会 自动 分 配 -ROOT- 中 的 Region， 并 


D 


好 致 用 户 数据 无 法 分 配 ， 集 群 无 法 启动 。 Master 节 点 的 相关 异常 日 志 如 下 : 


2013-11-21 15: 07: 01, 710 INFO org.apache.hadoop.hbase.catalog.CatalogTracker: 
Failed verification of .META., , 1 at address-JN-PEGASUS-114, 60020, 1385045053456; 
java.net.ConnectException: Connection refused 

2013-11-21 15: 07: 01, 710 DEBUG org.apache.hadoop.hbase.client. 
HConnectionManager$HConnectionImplementation: Looked up root region location, 
connection-org.apache.hadoop.hbase.client. 
HConnectionManager$HConnectionImplementationQ375b4aq2; 
serverName-JN-PEGASUS-113, 60020. 1385045125259 

2013-11-21 15: 07: 01, 711 DEBUG org.apache.hadoop.hbase.client. 
HConnectionManager$HConnectionImplementation: Looked up root region location, 
connection-org.apache.hadoop.hbase.client. 
HConnectionManager$HConnectionImplementation(Q375b4aqd2; 
serverName-JN-PEGASUS-113, 60020, 1385045125259 

2013-11-21 15: 07: 01, 714 INFO org.apache.hadoop.hbase.catalog.CatalogTracker: 
Failed verification of .META., , 1 at address-JN-PEGASUS-114, 60020, 1385045053456; 
java.net.ConnectException: Connection refused 

2013-11-21 15: 07: 01, 766 DEBUG org.apache.hadoop.hbase.client. 
HConnectionManager$HConnectionImplementation: Looked up root region location, 
connection-org.apache.hadoop.hbase.client. 
HConnectionManager$HConnectionImplementation(Q375b4aq2; 
serverName-JN-PEGASUS-113, 60020. 1385045125259 

2013-11-21 15: 07: 01, 767 DEBUG org.apache.hadoop.hbase.client. 
HConnectionManager$HConnectionImplementation: Looked up root region location, 
connection-org.apache.hadoop.hbase.client. 
HConnectionManager$HConnectionImplementation(Q375b4aq2; 
serverName-JN-PEGASUS-113, 60020. 1385045125259 

2013-11-21 15: 07: 01, 770 INFO org.apache.hadoop.hbase.catalog.CatalogTracker: 
Failed verification of .META., , 1 at address-JN-PEGASUS-114, 60020. 1385045053456; 
java.net.ConnectException: Connection refused 

2013-11-21 15: 07: 01, 823 DEBUG org.apache.hadoop.hbase.client. 
HConnectionManager$HConnectionImplementation: Looked up root region location, 
connection-org.apache.hadoop.hbase.client. 
HConnectionManager$HConnectionImplementationQ375b4aq2; 
serverName-JN-PEGASUS-113, 60020, 1385045125259 


更 新 -ROOT- 表 的 内 容 ， 因 


为 之 前 写 入 了 “错误 的 时 间 ”， 从 而 导致 元 数据 表 无 法 更 新 ， 从 而 导致 元 数据 表 无 法 正常 分 配 ， 最 


该 异常 解决 思路 和 办 法 : 


1) 跟踪 异常 信息 对 应 的 HBase 源 代码 ， 定 位 到 问题 是 -ROOT- 中 数据 根本 没有 被 初始 化 ， 从 而 定位 到 元 数据 表 出 现 问题 。 


2) 查看 HBase 的 -ROOT- 和 .META. 等 元 数据 表 中 数据 (压缩 、 特 定编 码 格式 ， 需 要 解析 后 查看 ) ， 定 位 到 -ROOT- 表 信息 中 最 新 数据 的 时 间 惟 都 存在 问题 (例如 ， 时 间 比 出 错时 刻 晚 4~10 小 时 ) 。 


3) 根据 时 间 戳 写 入 规律 ， 写 入 时 间 惟 与 写 入 当时 的 系统 时 间 对 应 ， 所 以 最 终 定位 到 系统 时 间 存 在 问题 。 


4) 同步 整个 集群 的 系统 时 间 ， 并 且 等 待 到 元 数据 表 中 最 新 一 个 版 本 的 数据 时 间 ， 


117.9 ”ZooKeeper 相 关 问 题解 决 


启 HBase 和 集群 。 或 者 重新 生成 两 个 元 数据 表 再 


启 HBase 和 集群 。 


使 用 hbase-daemon.sh start zookeeper 命 令 启动 ZooKeeper 时 ， 可 能 会 无 法 启动 ， 日 志文 件 中 有 类 似 下 面 的 异常 信息 : 
2013-12-08 18: 48: 20, 760 INFO [main] HBaseClient: Need to find the -ROOT- region 
2013-12-08 18: 48: 20, 760 INFO [main-SendThread () ] ClientCnxn: Opening socket 


connection to server hadoop-node-22/192.168.2.22: 2181 
2013-12-08 18: 48: 20, 769 INFO  [main-SendThread (hadoop-node-22: 2181) ] ClientCnxn: 
Socket connection established to hadoop-node-22/192.168.2.22: 2181, 
2013-12-08 18: 48: 20, 800 INFO  [main-SendThread (hadoop-node-22: 2181) ] ClientCnxn: 
Session establishment complete on server hadoop-node-22/192.168.2.22: 2181, 
sessionid = 0x13b49ebbe330033, negotiated timeout = 6000 


initiating session 


出 现 该 异常 信息 的 原因 是 ZooKeeper 队 列 中 有 很 多 缓存 信息 ， 导 致 


启 ZooKeeper 不 成 功 。 解 决 的 常 


办 法 是 直接 删除 ZooKeeper 的 缓存 数据 ，HBase 默 认 将 数据 存储 在 /tmp/${USER}- 


4${GROUPjMzookeeper 目 录 下 ，USER 是 启动 ZooKeeper 时 的 用 户 ，GROUP 是 该 用 户 所 在 的 组 。 直 接 将 该 目录 清空 ， 之 后 重启 即 可 。 


[1] 请 参见 http://vbird.dic.ksu.edu.tw/linux_basic/0440processcontrol_3.php#top。 


[2] 详细 信息 请 参见 http://zh.wikipedia.org/wiki/Kerberos。 


11.8 “集群 备份 


目前 ， 存 在 两 种 通常 策略 进行 HBase 集 群 备份 : 冷 备份 和 热 备 份 。 冷 备份 是 停止 整个 集群 之 后 再 备份 ; 热 备 份 是 在 正 使 用 的 集群 上 进行 备份 。 每 种 备份 类 型 各 有 优 劣 ， 将 会 在 接 下 来 的 内 容 中 介绍 。 


11.8.1 冷 备 份 


一 些 环境 可 以 容忍 暂时 停止 HBase 集 群 ， 例 如 用 于 后 台 容 量 分 析 ， 并 不 提供 前 台 页 面 。 这 种 情况 下 进行 的 冷 备份 优势 是 集群 所 有 节点 都 是 停止 的 ， 不 会 丢失 正在 处 理 的 保存 文件 或 元 数据 。 明 显 的 劣势 
是 集群 关闭 ， 无 法 使 用 。 以 下 是 其 具体 步骤 。 


1) 停止 HBase， 命 令 如 下 : 


hadoop fs -mkdir /backup 
bin/stop-hbase.sh 


2) 使 用 hadoop distcp 命 令 备份 数据 。 


distcp 命 令 既 用 于 将 HDFS 里 面 的 HBase 目 录 下 的 内 容 拷贝 到 当前 集群 的 另 一 个 目录 ， 也 可 以 拷贝 到 另 一 个 集群 。 往 往 distcp 工 作 场景 是 集群 关闭 状态 ， 没 有 正在 改变 的 文件 ， 不 推荐 用 于 正在 工作 中 的 
集群 。 命 令 的 使 用 如 下 : 


hadoop distcp «srcurl» <desturl> 
hadoop distcp hdfs: //master-1: 9000/hbase hdfs: //master-2: 9000/backup 


11.82. VS 37 Replication 


该 方法 假设 仍然 存在 另 一 个 集群 ， 这 里 不 再 阐述 方法 的 具体 内 容 ， 更 多 细节 参见 9.6 节 。 虽 然 该 方法 还 不 太 成 熟 ， 但 是 属于 实时 在 线 热 备 份 ， 不 会 丢失 正在 变化 的 数据 。 


11.8.3 热 备 份 之 CopyTable 


11.1.5 节 已 经 详细 介绍 了 CopyTable 的 实现 和 使 用 细节 ， 可 用 于 将 一 个 表 复制 到 同 集群 的 男 一 个 表 ， 也 可 将 表 复制 到 另 一 个 集群 的 男 一 个 表 ， 这 里 不 再 累 述 。 由 于 集群 正在 工作 ， 存 在 丢失 正在 变化 数 
据 的 风险 。 


11.84 EZ Export 


11.1.6 小 节 介绍 了 Export， 是 一 种 将 HDFS 内 容 导出 到 同一 集群 的 方法 。 恢 复数 据 使 用 11.1.7 小 节 介绍 的 Import， 不 再 累 述 。 该 方法 和 CopyTable 方 法 一 样 ， 存 在 丢失 正在 改变 数据 的 风险 。 


11.99 本章 小 结 


“ 工 欲 善 其 事 ， 必 先 利 其 器 ”， 掌 握 外 围 工 具 的 使 用 才能 更 熟练 、 深 入 地 使 用 HBase。 本 章 的 重点 是 介绍 HBase 的 运 维 和 管理 ， 运 维 部 分 包含 性 能 指标 、 监 控 工具 、 报 警 工具 、 故 障 处 理 等 ;而 管理 部 
分 包含 常用 工具 、 节 点 管理 和 集群 备份 。 本 章 的 内 容 基 本 涵盖 了 HBase 运 维和 管理 的 所 有 方面 。 大 家 也 非常 清楚 ， 运 维 管理 最 重要 的 是 经 验 一 一 实 操 经 验 ， 所 以 本 章 的 介绍 也 是 紧 紧 扣 合 实 操 这 个 关键 点 ， 
全 部 知识 点 的 讲解 都 围绕 实际 操作 进行 讲解 ， 并 且 具 备 实 际 的 代码 和 图 解 示例 。 


本 章 中 介绍 了 很 多 监控 管理 相关 的 工具 ， 但 并 不 是 所 有 工具 ， 而 是 有 重点 、 有 选择 地 介绍 最 常用 的 、 最 成 熟 的 工具 。 如 OpenTSDB， 虽 然 文 中 有 所 提 及 ， 并 没有 花 多 少 篇 幅 讲解 ， 因 为 该 工具 明显 不 够 
成 熟 ， 展 示 效 果 也 不 理想 。 还 有 其 他 的 类 似 PhpHbaseAdmin 是 笔者 同事 的 开源 产品 ， 如 果 读 者 感 兴趣 可 以 在 Github 上 找到 该 项 目 。 


第 12 章 “性 能 调 优 


本 章 将 为 读者 介绍 如 何 对 生产 环境 的 HBase 集 群 进行 性 能 优化 ， 将 涵盖 硬件 和 操作 系统 、 网 络 通信 、JVM、 查 询 、 写 入 、 核 心服 务 、 配 置 参 数 、ZooKeeper、 表 设计 等 多 方面 的 优化 细节 ， 并 且 会 结合 
压力 基准 测试 工具 YCSB 进 行 性 能 评估 。HBase 可 以 优化 的 知识 点 非常 多 ， 所 以 本 章 将 这 些 知识 点 分 门 别 类 ， 通 过 清晰 、 准 确 的 逻辑 曾 述 性 能 优化 。 


一 个 系统 “上 线 ”之 后 ， 有 两 个 方向 会 一 直 贯 穿 在 整个 系统 的 生命 周期 中 : 基于 系统 的 应 用 开发 和 系统 调 优 ， 对 于 HBase 系 统 来 讲 也 不 例外 。 前 面 章节 介绍 的 都 是 基本 概念 、 使 用 和 应 用 开发 的 相关 知 
识 ， 本 章 将 全 面 介 绍 如 何 优化 HBase， 围 绕 着 如 何 提升 HBase 的 读 和 写 性 能 的 核心 目标 ， 从 实战 操作 的 角度 阐述 某 个 知识 点 作为 调 优 主 体 的 原因 以 及 如 何 对 该 知识 点 进行 调 优 。 在 整个 阐述 过 程 中 引入 了 大 
量 的 示例 代码 和 图 示 ， 希 望 能 更 好 地 帮助 读者 理解 调 优 的 过 程 。 


12.1 “硬件 和 操作 系统 调 优 


12.1.1 配置 内 存 


HBase 对 于 内 存 的 消耗 是 非常 大 的 ， 主 要 是 其 LSM 树 状 结构 、 缓 存 机 制 和 日 志 记录 机 制 决定 的 ， 所 以 物理 内 存 当 然 是 越 大 越 好 。 并 且 现 在 内 存 的 价格 已 经 降 到 可 以 批量 配置 的 程度 ， 例 如 一 条 三 星 、 
DDR3、ECC 校 验 、16GB 内 存 ， 价 格 大 约 在 1000 元 左右 。 


在 互联 网 领域 ， 服 务 器 内 存 方面 的 主流 配置 已 经 是 64GB， 所 以 一 定 


12.1.2 配置 CPU 


HBase 给 读者 的 印象 可 能 更 偏向 于 “内 存 型 ”NoSQl 数 据 库 ， 从 而 忽略 了 CPU 方面 


实 HBase 在 某 些 应 


根据 实际 的 需求 和 预算 配备 服务 器 内 存 。 如 果 资 源 很 紧张 ， 推 荐 内 存 最 小 在 32GB， 如 果 再 小 会 严 


上 对 CPU 的 消耗 非常 大 ， 例 如 频繁 使 用 过 滤器 ， 因 


为 在 过 滤器 中 包含 很 多 


ER/I[)HBasefEREIERE, 


匹配 、 搜 索 


和 过 滤 的 操作 ; 多 条 件 组 合 扫描 的 场景 也 是 CPU 密集 型 的 ;压缩 操作 很 频繁 等 。 如 果 服 务 器 CPU 不 够 强悍 ， 会 导致 整个 集群 的 负载 非常 高 ， 很 多 线程 都 在 阻塞 状态 ( 非 网 络 阻塞 和 死 锁 的 情况 ) 。 


一 般 CPU 的 品牌 有 Intel、AMD、1IBM ，Intel 是 主流 。 


FFCPU 密 集 型 的 集群 ， 当 然 是 越 多 越 好 。 


现在 的 服务 器 支持 1、2、3、4、6、8、10 路 CPU， 而 每 路 CPU 的 核心 有 双核 、 四 核 、 六 核 、 八 核 、 十 二 核 。CPU 数 量 和 核心 数 之 间 可 以 互相 搭配 ， 当 然 值 越 大 相应 的 价格 越 高 。 建 议 每 台 物 理 节点 至 
少 使 用 双 路 四 核 CPU (2x4) ， 主 流 是 2~ 8 路 ， 一 般 单 颗 CPU 至 少 四 核 。 一 颗 四 核心 CPU， 便 宜 的 ， 价 格 在 1500 元 左右 ， 还 是 可 以 接受 的 。 所 以 ， 对 
12.1.3 ”操作 系统 


Hadoop 最 早 是 为 了 在 Linux 平 台 上 使 用 而 ; 
上 安装 Hadoop 与 在 Linux 上 基本 相同 。 


发 的 ,但 是 Hadoop 在 Unix、Windows 和 Mac OS X 系 统 上 也 能 良好 运行 。 不 过 在 Windows 上 运行 Hadoop 复 杂 不 少 ， 并 且 


资源 支持 也 没 那么 多 。 而 在 Unix 


操作 。 使 


ax 


SS 


1 操作 系统 选择 


推荐 


户 使 


主流 Linux 操 作 系 统 ， 例 | 


RedHat、CentOS、Ubuntu、Suse 等 ， 选 用 64 位 版 本 。JVM 推 荐 选 上 


Sun HotSpot 64 位 版 本 ， 这 样 能 发 挥 出 Hadoop 最 好 的 性 能 。 


2. 使 用 noatime 选 项 挂 载 磁盘 


用 


如 果 磁盘 系统 只 是 面向 Hadoop 应 用 ， 


磁盘 文件 系统 格式 为 ext3、ext4 或 XFS， 那 么 加 载 磁盘 时 可 使 


noatime 选 项 ， 避 免 Linux 在 每 次 数据 读 取 时 都 更 新 文件 的 访问 时 间 戳 。 


在 默认 情况 下 ，Linux 使 


atime 选 项 ， 每 次 在 磁盘 上 读 取 (或 写 入 ) 数据 时 都 会 产生 一 个 记录 。 默 认 atime 选 项 最 大 的 问题 在 于 即使 从 页 面 缓存 读 取 文 件 (从 内 存 而 不 是 磁盘 读 取 ) ， 
noatime 选 项 阻止 了 读 文 件 时 的 写 操作 。noatime 已 经 包含 nodiratime， 不 需要 同时 设置 。 


会 产生 磁盘 写 


由 于 Hadoop 使 


NameNode 管 理 HDFS 的 元 数据 ， 操 作 系统 文件 的 访问 时 间 对 Hadoop 是 无 意义 的 。 通 过 禁用 Linux 读 数据 时 更 新 访问 时 间 戳 ， 可 提高 HDFS 的 访问 性 能 ， 并 进而 提高 HBase 的 访问 性 


下 面 介绍 noatime 选 项 的 设置 步骤 。 


(1) 编辑 /etc/fstab 文 件 


文件 /etc/fstab[1] 包 含 了 静态 文件 系统 信息 ， 定 义 了 存储 设备 和 分 区 整合 到 整个 系统 的 方式 。mount 命 令 会 读 取 这 个 文件 ， 确 定 设备 和 分 区 的 挂 载 选项 。 编 辑 /etc/fstab， 文 件 内 容 如 下 面 代码 所 示 : 


vi /etc/fstab 


LABEL-/ / ext3 defaults 11 
LABEL-/opt /opt ext3 defaults 12 
LABEL-/tmp /tmp ext3 defaults 12 
LABEL-/home /home ext3 defaults 12 
LABEL-/var /var ext3 defaults 12 
LABEL-/usr /usr ext3 defaults 12 
LABEL-/boot /boot ext3 defaults 12 
tmpfs /dev/shm tmpfs defaults 00 
devpts /dev/pts devpts gid-5, mode-620 0 0 
sysfs /sys sysfs defaults 00 
proc /proc proc defaults 00 
LABEL-SWAP-ddfl 4c534 swap swap defaults 00 
使 用 df-h 命 令 查看 现在 的 系统 分 区 ， 从 下 面 的 代码 中 可 以 发 现 /opt 分 区 是 最 大 的 分 区 ， 在 这 里 也 是 Hadoop 存 储 数 据 的 分 区 。 接 下 类 需要 编辑 该 分 区 对 应 的 参数 。 
df -h 
Filesystem Size Used Avail Use% Mounted on 
/dev/sda2 19G 419M  18G 3% 
/dev/sda9 1.7T 254G 1.4T 16$ /opt 
/dev/sda7 9.5G 151M 8.9G 2$ /tmp 
/dev/sda6 19G 275M  18G 2$ /home 
/dev/sda5 19G 8.2G 9.8G 46$ /var 
/dev/sda3 19G 1.3G 17G 7$ /usr 
/dev/sdal 190M 12M 169M 7$ /boot 
tmpfs 16G 0 16G 0% /dev/shm 

(2) 添加 noatime 选 项 

修改 /etc/fstab 文 件 中 /opt 分 区 的 选项 参数 ， 将 noatime 添 加 到 defaults 选 项 之 后 ， 代 码 如 下 : 


LABEL-/opt /opt ext3 defaults, noatime 


(3) 使 /etc/fstab 文 件 修改 生效 


/etc/fstab 文 件 是 系统 启动 的 时 候 加 载 的 ， 所 以 修改 该 文件 


后 重启 是 一 种 方法 。 但 是 对 于 生产 环境 ， 这 种 方式 不 是 最 优 的 。 这 里 使 


remount 方 法 重新 挂 载 /opt 分 | 


区 


首先 查看 一 下 修改 的 /etc/fstab 文 件 有 没有 生效 ,执行 mount 命 令 ， 查 看 结果 如 下 : 


mount 

/dev/sda3 on / type ext3 (rw) 

proc on /proc type proc (rw) 

sysfs on /sys type sysfs (rw) 

devpts on /dev/pts type devpts (rw, gid=5, mode=620) 
/dev/sda6 on /opt type ext3 (rw) 

/dev/sda2 on /home type ext3 (rw) 

/dev/sdal on /boot type ext3 (rw) 

tmpfs on /dev/shm type tmpfs (rw) 


从 上 面 的 输出 结果 可 以 看 到 ，/opt 分 区 的 noatime 属 性 并 没有 生效 ， 接 下 来 使 


remount 方 式 。 运行 mount-o remount/opt 命 令 ， 然 后 查看 /opt 分 区 的 noatime 选 项 的 添加 情况 ， 结 果 如 下 : 


mount 

/dev/sda3 on / type ext3 (rw) 

proc on /proc type proc (rw) 

sysfs on /sys type sysfs (rw) 

devpts on /dev/pts type devpts (rw, gid-5, mode-620) 


/dev/sda6 on /opt type ext3 (rw, noatime) 

/dev/sda2 on /home type ext3 (rw) 

/dev/sdal on /boot type ext3 (rw) 

tmpfs on /dev/shm type tmpfs (rw) 

none on /proc/sys/fs/binfmt misc type binfmt misc (rw) 
sunrpc on /var/lib/nfs/rpc pipefs type rpc pipefs (rw) 


从 上 面 代码 中 可 以 看 到 ，/opt 分 区 的 选项 已 经 包含 noatime， 说 明 /etc/fstab 文 件 的 修改 已 经 生效 。 


3. 关 闭 系统 交换 分 区 


vm.swappiness 是 Linux 系 统 交 换 分 区 利用 率 的 设置 参数 ， 一 般 默 认 值 是 60， 该 值 的 设置 范围 


的 


是 [0，100]， 值 越 低 表示 尽量 使 用 物理 内 存 ， 值 越 高 表示 尽量 使 用 交换 分 区 。 如 果 设置 为 0， 并 不 是 说 不 使 


交换 分 区 ， 而 是 尽量 不 用 。Linux 内 存 的 反复 交换 会 影响 JVM 的 性 能 ， 从 而 影响 集群 的 整体 性 能 ， 典 型 的 异常 是 直接 导致 ZooKeeper 会 话 超时 。 因 此 ， 尽 量 避 免 使 用 交换 分 区 ， 能 在 最 大 程度 上 保证 集群 


整体 性 能 。 


首先 ， 查 看 一 下 节点 的 vm.swappiness 参 数 的 当前 值 ， 有 两 种 方法 修改 该 参数 ， 命 令 和 输出 信息 如 下 : 


// 方 法 一 : 

sysctl -q vm.swappiness 
vm.swappiness = 60 

// 方 法 二 : 

cat /proc/sys/vm/swappiness 
60 


其 次 ,调整 交换 分 区 值 ， 调 整 方式 有 两 种 : 


: 临时 调整 。 这 种 设置 在 操作 系统 重启 时 失效 ， 有 两 种 方法 进行 临时 调整 ， 命 令 如 下 : 


// 方 法 一 : 
echo 0 > /proc/sys/vm/swappiness 
// 方 法 二 : 


sysctl -w vm.swappiness=0 


: 永久 调整 。 但 需要 重启 节点 才能 生效 ， 命 令 如 下 : 


echo "vm.swappiness = 0" >> /etc/sysctl.conf 


[1] 详细 介绍 请 参见 https://wiki.archlinux.org/index.php/Fstab_(%E7%AE%80%E4%BD%93%E4%B8%AD%E6%96%87)#atime_.E5.8F.82.E6.95.B0。 


12.2 ”网 络 通 信 调 优 


典型 的 网 络 配置 是 机 架 内 的 服务 器 使 用 1GE 交 换 机 。 机 架 之 间 通 常 是 由 一 个 或 多 个 低 延 迟 、 高 吞吐 量 的 专用 两 层 10GE 核 心 交 换 机 互 连 。 众 所 周知 ， 网 络 拓扑 和 网 络 环境 的 好 与 坏 、 稳 定 与 否 ， 直 接 影响 


整个 集群 的 访问 性 能 。 本 节 将 重点 介绍 如 何在 生产 环境 下 配置 HBase 集 群 的 网 络 拓扑 和 机 架 感知 。 


12.2.1 配置 交换 机 


解 


以 


交换 机 的 配置 是 中 大 型 集群 构建 必须 面临 的 问题 。 为 了 将 来 的 网 络 扩展 性 ， 建 议 初步 部 署 HBase 集 群 时 ， 要 超过 一 个 机 架 (Rack) ， 即 至 少 有 两 个 机 架 。 从 初始 搭建 HBase 集 群 开始 ， 就 一 步 一 步 地 了 


网 络 拓扑 的 正确 配置 方法 。 当 集群 规模 翻 倍 甚至 更 多 时 ， 早 期 的 决定 可 能 导致 主要 的 问题 。 


一 般配 置 HBase 网 络 拓扑 的 时 候 ， 以 下 几 个 方面 需要 重点 考虑 和 评估 : 


“ 尽 可 能 使 用 专用 TOR (Top of Rack) 交换 机 。TOR 指 “ 柜 顶 ”， 是 一 种 数据 中 心 的 一 种 架构 设计 方式 ， 该 方式 将 接 入 交换 机 放置 在 每 个 服务 器 机 柜 或 单元 的 顶部 ， 机 柜 内 服务 器 直接 通过 短 跳 线 连接 
到 顶部 的 交换 机 上 ， 再 经 由 光纤 从 交换 机 的 上 行 链 路 端口 连 至 核心 交换机 。 其 拥有 减低 网 络 结构 复杂 性 、 减 少 网 络 阻塞 、 可 扩展 性 强 等 优势 。 常 用 于 机 架 〈 或 机 柜 ) 。 


“ 有 条 件 选 择 专 用 核心 交换 刀片 或 交换 机 。 核 心 交换 机 并 不 是 交换 机 的 一 种 类 型 ， 而 是 放 在 核心 层 ( 网 络 主干 部 分 ) 的 交换 机 。 其 拥有 快速 转发 的 优势 。 一 般 用 于 机 架 和 机 架 之 间 。 但 是 ， 一 台 核 心 交 
换 机 的 价格 在 人 民 币 百 万 以 上 ， 是 非常 奢侈 的 配置 ， 一 般 用 在 省 或 地 市 的 主干 网 上 ， 或 者 集群 规模 过 千 台 的 集群 中 。 所 以 ， 如 果 集 群 规模 比较 大 ， 经 济 条 件 允 许 ， 选 择 核 心 交换 机 是 一 个 集群 保持 高 性 能 的 
有 力 保障 。 其 他 情况 下 ， 机 架 之 间 通 常 是 由 一 个 或 多 个 低 延迟 、 高 吞吐 量 的 专用 两 层 10GE 核 心 交换 机 互 连 。 


“ 确保 应 用 服务 器 尽量 “靠近 ”HBase 集 群 。 一 般 集 群 内 部 节点 属于 局 域 网 ， 如 果 是 跨 网 、 跨 机 房 、 跨 地 域 访问 ， 会 出 现 大 量 的 网 络 延 时 和 网 络 错误 ， 而 HBase 集 群 很 重要 的 一 个 优势 就 是 实时 性 强 。 所 


， 应 该 将 应 用 服务 器 尽量 部 署 在 距离 HBase 集 群 “ 近 ”的 地 方 ， 例 如 在 同 机 房 的 子 网 内 。 


“ 考虑 交换 机 容量 。 基 于 不 同 的 业务 场景 和 需求 定义 交换 机 容量 ， 一 般 TOR 使 用 1GE ， 机 架 间 交换 机 使 用 10GE 能 满足 绝 大 部 分 需求 。 


下 面 是 列举 的 一 个 生产 环境 下 HBase 集 群 的 网 络 拓扑 结构 ， 如 图 12-1 所 示 。 其 中 直接 连接 对 外 客户 端 机 器 的 SWITCH 是 10GE 交 换 机 ， 而 Rack1、Rack2、Rack3、.……、 RackN 等 顶部 的 SWITCH 是 TOR 
1GE 交 换 机 。 


对 外 客户 端 机 器 


LEETE 


图 12-1 生产 环境 HBase 集 群 网 络 拓扑 图 


12.2.2 ”添加 机 架 感知 


了 解 和 使 用 过 Hadoop 的 读者 应 该 知道 机 架 感 知 的 概念 和 作用 。 机 架 感 知 是 提升 Hadoop 集 群 网 络 性 能 的 一 项 重要 参数 。 由 于 Hadoop 的 HDFS 对 数据 文件 的 分 布 式 存放 是 按照 分 块 存储 ， 每 个 块 会 有 多 
个 副本 (默认 为 3) ， 并 且 为 了 数据 的 安全 和 高 效 ， 所 以 Hadoop 默 认 对 3 个 副本 的 存放 策略 为 : 


“ 第 一 个 副本 是 随机 选取 的 节点 。 
“ 第 二 个 副本 放置 在 与 第 一 个 副本 所 在 节点 的 同一 机 架 中 的 另外 的 一 个 随机 节点 。 
:第 三 个 副本 放置 在 与 第 一 个 副本 所 在 节点 不 同 机 架 的 另 一 个 节点 上 。 


“ 如 果 还 有 更 多 的 副本 就 随机 放 在 集群 的 节点 上 。 


但 是 ，Hadoop 对 机 架 的 感知 并 非 是 自 适应 的 ， 需 要 告知 Hadoop 机 架 的 拓扑 结构 ， 这 样 才能 做 到 写 入 和 读 取 操 作 的 本 地 化 。 这 个 拓扑 结构 就 是 需要 配置 的 机 架 感知 。 下 面 介 绍 具体 的 配置 方法 。 


1. 编 写 机 架 感知 的 RackAware.py 脚 本 


脚本 使 用 Python 语言 ， 根 据 图 12-1 中 的 机 架 拓 扑 结构 ， 编 写 脚本 内 容 如 下 : 


#! /usr/bin/python 

d-*-coding: UTF-8 -*- 

import sys 

rack = ( "RS1-1" 
" 


2. 配 置 机 架 感知 脚本 


在 NameNode 所 在 机 器 的 Hadoop 配 置 文件 core-site.xml 中 配置 topology.script.file.name 选 项 ， 代 码 如 下 : 


«property» 
«name»topology.script.file.namec/name» 
«value»/path/to/RackAware.py«/value» 

</property> 


其 中 ， 需 要 将 /path/to/RackAware.py 蔡 换 为 用 户 实际 放置 该 脚本 的 路 径 ， 必 须 是 绝对 路 径 。 


Ww 


.重启 NameNode 


首先 进入 RackAware.py 所 在 目录 ， 改 变 脚本 的 权限 ， 命 令 如 下 : 


chmod +x RackAware.py 


至 此 ， 整 个 配置 过 程 完成 后 ， 需 要 重启 NameNode 使 机 架 感 知 配置 生效 。 如 果 NameNode 日 志文 件 中 有 类 似 下 面 的 输出 信息 ， 证 明 机 架 感 知 配置 成 功 。 


2013-01-21 17: 12: 44, 495 INFO org.apache.hadoop.net.NetworkTopology: Adding a new 
node: /rack1/192.168.20.101: 50010 


123 JVM 优 化 


T 


可 以 在 维基 百科 中 查找 到 有 关 JVM 的 一 些 解释 ，“Java 虚 拟 机 (英语 : Java Virtual Machine, 48579)JVM) ， 又 名 爪哇 虚拟 器 ， 一 种 能 够 运行 Java bytecode 的 虚拟 机 ， 以 堆栈 结构 机 器 来 进行 实 
做 。 最 早 由 太阳 微 系统 所 研发 ， 是 Java 平 台 的 一 部 分 ， 能 够 运行 以 Java 语 言 写 作 的 软件 程序 。” 


可 见 ，JVM 是 整个 java 平台 和 程序 运行 的 基础 ， 所 以 对 于 JVM 的 优化 是 非常 重要 的 一 个 环节 ， 下 面 将 详细 介绍 JVM 优 化 的 要 点 和 细节 。 


12.3.1 _ Java 垃圾 回收 算法 


垃圾 回收 (Garbage Collection, GC) 并 不 是 Java 的 伴生 产物 ， 早 在 1970 年 诞生 于 MIT 的 LISP 语 言 是 第 一 个 真正 使 用 内 存 动态 分 配 和 垃圾 收集 的 语言 。 而 其 也 是 Java 语 言 的 重要 特征 。 下 面 的 内 容 将 
详细 介绍 Java 语 言 所 涉及 的 垃圾 回收 算法 。 


1. 标 记 -清除 算法 


最 基础 的 收集 算法 是 “标记 -清除 ” (Mark-Sweep) 算法 ， 该 算法 主要 分 为 标记 和 清除 两 个 阶段 ， 先 对 需要 回收 的 对 象 进行 标记 ， 然 后 再 进行 清除 ， 该 算法 的 优点 是 简单 ， 缺 点 标记 和 清除 的 效率 都 不 
高 ， 并 且 标 记 清 除 之 后 会 造成 大 量 的 空间 碎片 ， 当 程序 需要 分 配 一 个 大 对 象 而 无 法 找到 连续 的 空间 时 就 会 发 生 Full GC. 


2. 复 制 算 法 


复制 (Copying) 算法 ， 将 内 存 空间 分 为 大 小 相等 的 两 块 ， 在 其 中 的 一 块 进行 对 象 的 分 配 ， 需 要 垃圾 回收 时 将 其 中 一 块 存活 的 对 象 拷贝 到 另 一 块 ， 然 后 把 用 过 的 内 存 块 清理 掉 ， 该 算法 的 优点 是 不 用 考 
虑 内 存 碎片 问题 ， 实 现 简单 ， 运 行 高 效 ， 缺 点 是 将 内 存 缩小 为 原来 的 一 半 ， 代 价 有 点 儿 高 。 


现在 的 虚拟 机 都 采用 该 算法 来 进行 新 生 代 (Young) 的 垃圾 回收 ，JVM 将 内 存 分 为 一 块 较 大 的 Eden 空 间 和 两 块 较 小 的 Survivor 空 间 。 每 次 使 用 Eden 和 Survivor 空 间 ，HopSpot 默 认 的 比例 是 8: 1， 按 
照 此 种 比例 ， 新 生 代 的 空间 为 90%， 只 有 10% 的 空间 会 被 浪费 掉 。 如 果 进 行 了 一 次 垃圾 回收 Survivor 仍 然 不 能 满足 空间 的 需要 ， 此 时 需要 通过 分 配 担保 机 制 将 相关 的 对 象 分 配 到 老年 代 (Tenured) 中 ， 如 


到 12-2 所 示 。 


Tenured 
Eden i 


2 — ial a 
Young Perm 


图 12-2 JVM 内 存 分 区 示意 图 
3. 标 记 - 整 理 算法 


复制 算法 在 对 象 存 活 率 较 高 的 情况 下 就 要 执行 较 多 的 复制 操作 ， 效 率 会 变 低 ， 另 外 如 果 不 想 浪费 50% 的 空间 ， 还 需要 进行 分 配 担保 机 制 ， 以 应 对 100% 极 端 存活 的 情况 ， 所 以 老年 代 不 用 此 种 算法 。 老 年 
代 采 用 标记 -整理 (Mark-Compact) 算法 ， 标 记过 程 和 标记 -清除 算法 一 样 ， 但 是 整理 却 是 所 有 存活 的 对 象 向 一 端 移动 ， 之 后 清理 掉 边界 外 的 内 存 。 


4 分 代 收 集 算法 
当前 的 商业 虚拟 机 都 采用 此 种 “分 代 收 集 ” (Generational Collection) 算法 ， 该 算法 没有 多 少 新 意 ， 根 据 对 象 的 存活 周期 将 内 存 分 为 几 块 ， 一 般 将 堆 内 存 分 为 新 生 代 和 老年 代 。 在 新 生 代 ， 采 用 “ 复 
制 ”算法 ， 而 对 于 老年 代 ， 对 象 存活 率 高 ， 而 且 没有 额外 的 空间 进行 分 配 担保 ， 使 用 “标记 -整理 ”或 者 “标记 -清除 ”进行 垃圾 回收 。 


12.32 ”Java 垃圾 收集 器 


上 面 介 绍 了 JVM 常 用 的 垃圾 回收 算法 ， 而 本 小 节 介绍 的 内 容 是 对 垃圾 回收 算法 的 具体 实现 ， 即 java 垃圾 回收 器 。Java 中 的 堆 内 存 划 分 为 新 生 代 和 老年 代 ， 针 对 这 两 个 不 同 的 年 代 分 别提 供 了 多 种 不 同 的 
垃圾 收集 器 实现 ，JDK1.6 中 Sun Hotspot 虚 拟 机 的 垃圾 收集 器 如 图 12-3 所 示 。 其 中 ， 带 有 连 线 的 收集 器 之 间 可 以 搭配 使 用 。 


Parallel 
Scavenge 


Serial ParNew 


Serial 
Old(MSC) 


12-3 JDK 中 的 垃圾 收集 器 


1.Serial 收 集 器 


Serial 收 集 器 是 最 基本 、 发 展 历史 最 悠久 的 收集 器 ， 本 身 是 一 个 单线 程 的 垃圾 回收 器 ， 在 进行 垃圾 回收 时 必须 暂停 其 他 所 有 的 工作 线程 ， 即 “stop The World”。 但 是 该 回收 器 简单 、 高 效 ， 没 有 线程 
交互 的 开销 。Serial 收 集 器 对 于 运行 在 Client 模 式 下 的 虚拟 机 来 说 是 一 个 很 好 的 选择 ， 也 是 该 模式 下 的 默认 垃圾 收集 器 。 


2.ParNew 收 集 器 
ParNew 收 集 器 是 serial 收集 器 的 多 线程 版 本 ， 属 性 和 参数 都 与 Serial 收 集 器 相同 。 该 收集 器 是 Server 模 式 下 的 新 生 代 默 认 收集 器 。 除 了 serial 收集 器 外 ， 只 有 它 能 够 和 CMS 收集 器 配合 工作 。 


3.Parallel Scavenge 收 集 器 


Parallel Scavenge 收 集 器 也 是 一 个 新 生 代 收集 器 ， 是 使 用 复制 算法 的 并 行 、 多 线程 收集 器 。 它 会 尽 可 能 地 缩短 垃圾 回收 时 用 户 线程 的 停顿 时 间 ， 目 标 是 达到 一 个 可 控制 的 吞吐 量 。 所 谓 吞吐 量 是 CPU 运 
行 用 户 代码 的 时 间 和 CPU 总 消耗 时 间 的 比值 。 该 收集 器 被 称 为 “吞吐 量 ”优先 的 收集 器 ， 另 外 该 收集 器 还 有 一 个 参数 -XX:+UseAdaptivesizePolicy， 用 来 自动 调节 新 生 代 的 大 小 。 自 适应 调节 策略 也 是 
Parallel Scavenge 收 集 器 与 ParNew 收 集 器 的 一 个 重要 区 别 。 


4.Serial Old 收集 器 

Serial Old 收集 器 是 Serial 的 老年 代 版 本 ， 采 用 “标记 -整理 ”算法 进行 垃圾 回收 ， 使 用 最 多 的 场景 是 Client 端 。 另 外 ，Serial Old 收集 器 还 有 其 他 两 个 用 途 : 
: 在 JDK1.5 之 前 的 版 本 中 与 Parallel Scavenge 收 集 器 配合 使 用 。 
“ 作为 CMS 收集 器 的 备 选 方案 ， 当 发 生 Concurrent Mode Failure 时 使 用 。 


5.Parallel Old 收集 器 


Parallel Old 收集 器 是 Parallel Scavenge 收 集 器 的 老年 代 版 本 ， 使 用 多 线程 和 “标记 -整理 ”算法 。Parallel Old 收集 器 主要 是 为 了 与 Parallel Scavenge 配 合 使 用 。 在 JDK1.6 之 前 ， 如 果 新 生 代 使 用 
Parallel Scavenge 收 集 器 ， 只 能 搭配 年 老 代 的 Serial Old 收集 器 ， 这 样 也 只 是 保证 新 生 代 的 吞吐 量 优先 ， 无 法 保证 整体 的 吞吐 量 。 而 Parallel Old 收集 器 正 是 为 了 在 老年 代 同 样 提 供 吞吐 量 优先 的 垃圾 收集 
器 ， 如 果 系 统 对 吞吐 量 要 求 比较 高 ， 可 以 优先 考虑 新 生 代 Parallel Scavenge 和 老年 代 Parallel Old 收集 器 的 搭配 策略 。 


6.CMS 收 集 器 


CMS (Concurrent Mark Sweep) 收集 器 是 一 种 以 获取 最 短 回收 停顿 时 间 为 目标 的 收集 器 。 该 收集 器 非常 适用 于 互联 网 领域 或 者 B/S 系 统 的 服务 端 ， 这 类 应 用 尤其 重视 服务 的 响应 速度 ， 希 望 系统 停顿 
的 时 间 最 短 ， 给 用 户 带 来 最 好 的 用 户 体验 。 


CMS 收集 器 是 一 个 非常 优秀 的 收集 器 ， 其 优点 主要 体现 在 并 发 收集 、 低 停顿 上 ， 但 它 还 远 不 能 达到 完美 的 程度 。 下 面 是 CMS 收集 器 的 三 个 缺点 : 
| CPU 敏感 。CMS 默 认 开启 的 回收 线程 数目 为 (CPU 数量 +3) /4， 如 果 CPU 过 多 会 导致 用 户 感到 突然 停顿 。 
“ 无 法 处 理 浮动 垃圾 。 由 于 CMS 并 发 清理 阶段 用 户 线程 还 在 不 断 地 运行 ， 这 一 部 分 垃圾 可 能 出 现在 标记 之 后 ，CMS 无 法 处 理 他 们 ， 只 能 在 下 一 次 进行 一 次 处 理 。 


“ CMS 基 于 “标记 -清除 ”算法 实现 ， 可 能 会 产生 大 量 的 内 存 碎片 。 


7.G1 收 集 器 


G1 收集 器 在 JDK1.6 Update14 中 提供 了 一 个 使 
在 不 牺牲 吞吐 量 的 情况 下 完成 低 停顿 的 垃圾 回收 ， 这 是 | 


版 本 ， 与 前 面 的 CMS 相 比 ， 它 是 基 


F “标记 -整理 ”算法 ， 不 会 产生 内 存 碎 片 ， 另 外 它 可 以 精确 地 控制 停顿 ， 让 垃圾 回收 不 超过 N 毫 秒 ， 


为 它 会 避免 在 全 区 域 进行 垃圾 回收 ，G1 会 将 整个 堆 内 存 划分 为 多 个 大 小 固定 的 独立 | 


表 ， 优 先 回收 垃圾 最 多 的 区 域 。 


HotSpot 开 发 团队 赋予 G1 收集 器 的 使 命 是 未 来 可 以 取代 CMS 收 集 器 ， 空 间 整 合 、 分 代 收 集 、 可 预测 停顿 是 它 的 优点 ， 但 是 在 JDK1.6 版 本 中 ，G1 收 集 器 还 不 够 完善 ， 不 能 达到 线 上 使 


性 能 、 稳 定性 和 安全 性 等 方面 进行 一 段 时 间 工 业 上 的 验证 。 
12.3.3 ”垃圾 回收 器 的 选择 


对 于 运行 HBase 相 关 进 程 JVM 的 垃圾 回收 器 ， 不 仅仅 关注 香 吐 量 ， 还 关注 停顿 时 间 ， 而 且 两 者 之 间 停 顿时 间 更 为 重 
是 停顿 时 间 短 ， 从 这 个 方面 CMS 和 G1 有 着 非常 大 的 优势 ， 但 是 从 上 面 的 内 容 ， 我 们 已 经 看 到 ， 


而 CMS 作为 JDK1.5 已 经 出 现 的 垃圾 收集 器 ， 已 经 成 熟 应 
收集 器 有 Serial 和 ParNew， 而 对 比 这 两 个 收集 器 ， 明 显 ParNew 
经 验证 了 这 种 组 合 搭配 的 优势 。 


1234 ”JVM 参数 设 置 


在 互联 网 等 各 个 行业 。 所 以 ， 选 
有 更 好 的 性 能 ， 所 以 新 生 代 选 上 


DK1.6 中 的 G1 


必 集 器 还 不 够 成 熟 ， 所 以 不 能 大 规模 应 


于 生产 环境 。 


另外 它 还 可 以 
区 域 ， 并 根据 这 些 垃圾 的 堆积 程度 ， 在 后 台 维护 一 个 垃圾 优先 列 


标准 ， 还 需要 在 


为 HBase 设 计 的 初衷 就 是 解决 大 规模 数据 集 下 实时 访问 的 问题 。 那 么 按照 首位 


CMS 作为 老年 代 的 垃圾 回收 器 。 接 下 来 ， 看 新 生 代 垃 圾 收集 器 的 选择 。 在 图 12-2 中 ， 与 CMS 搭配 的 新 生 代 


最 终 选 


ParNew 作 为 垃圾 收集 器 。 那 么 ， 


， 以 及 日 志 打印 等 畏 


不 管 是 垃圾 回收 策略 的 选择 ， 还 是 堆 内 存 大 小 的 设 


1. 堆 内 存 大 小 参数 


与 JVM 堆 内 存 相关 的 几 个 重要 参数 的 具体 合 义 、 默 认 值 和 相关 说 明 详 见 表 12-1。 


都 需 


的 垃圾 收集 器 搭配 组 合 是 CMS+ ParNew。 而 且 很 多 成 熟 应 


通过 配置 参数 来 实现 。 下面 将 详细 介绍 如 何 配置 JVM 人 参数 以 达到 性 能 优化 的 目的 。 


已 


表 12-1 堆 内 存 相关 参数 
参数 名 称 £ X 默认 值 说 有明 

默认 空余 堆 内 存 大 于 70% 时 ， 

-Xmx 最 大 堆 大 小 物理 内 存 的 1/4 (<1GB) |JVM 会 减少 堆 直 到 -Xms 的 最 小 
限制 

RAE RHENTI F 40% 时 ， 

-Xms 初始 堆 大 小 物理 内 存 的 164 (<1GB) |JVM 就 会 增 大 堆 直 到 -Xmx 的 最 

大 限制 

上 新 生 E 大 小 (JDK 1.4 此 处 的 大 小 是 eden+2 x survivor 
或 更 新 版 本 ) 空间 

JDK5.0 以 后 每 个 线程 堆栈 大 小 

M. 每 个 线程 的 堆栈 大 小 为 1MB， 以 前 为 256KB。 在 相 


-XX:MaxPermSize 设置 老年 代 最 大 值 


物理 内 存 的 1/4 


同 物理 内 存 下 , 减 小 这 个 值 能 生 
成 更 多 的 线程 


这 些 参数 需要 在 ${HBASE_HOMEjMconf/hbase-env.sh 文 件 中 设置 ， 实 际 上 ， 除 非 出 现 非常 特殊 的 情况 ， 否 则 一 般 只 设置 堆 内 存 大 小 ， 其 他 几 项 参数 并 不 需要 特别 设置 。 堆 内 存 大 小 即 -Xmx 代 表 的 


值 。 在 hbase-env.sh 中 ， 使 


HBASE_HEAPSIZE 参 数 。 设 置 的 代码 如 下 : 


export HBASE HEAPSIZE-16384 


在 上 面 代码 中 指定 堆 内 存 大 小 是 16284， 单 位 是 MB， 即 16GB。 当 然 ， 这 个 值 需要 根据 节点 实际 的 物理 内 存 来 决定 。 一 般 不 超过 实际 物理 内 存 的 1/2。 


2.CM SS 相关 参数 
与 CMS 收集 器 相关 的 几 个 重要 参数 的 具体 含义 、 默 认 值 和 相关 说 明 详 见 表 12-2。 


A122 堆 内 存 相 关 参 数 


参数 名 称 
-XX:+UseConcMarkSweepGC 


-XX:+UseParNewGC 


使 用 CMS 垃圾 收集 器 


新 生 代 采用 并 行 GC 策略 


明 


JDKS.0 以 上 ， 
系统 配置 自行 设 
— 置 此 值 


JVM 会 根据 
置 ， 所 以 无 


A EL. 


-XX:CMSFullGCsBeforeCompaction 


-XX:-CMsSParallelRemarkEnabled 


-XX-UseCMSCompactAtFullCollection 


-XX:TUseCMSInitiatingOccupancyOnly 


-XX:CMSInitiatingOccupancyFraction 


多 少 次 Full GC 后 进行 内 
存 压缩 


降低 标记 停顿 
在 FULL GC 的 时 候 ， 对 
老年 代 的 压缩 


使 用 于 动 定 义 初始 化 定 x. 
开始 CMS 收集 

使 用 CMS 作为 垃圾 回收 ， 
使 用 N96 后 开始 CMS 收集 


由 于 并 发 收集 器 不 对 内 存 
空间 进行 压缩 整理 ， 所 以 运 
时 间 以 后 会 产生 
， 使 得 运行 效率 降低 。 此 
ud 置 运行 一 GC 以 后 
对 内 存 空间 进行 压缩 整理 


“PE 


CMS 是 不 会 移动 内 存 的 ， 
非常 容易 产生 碎片 ， 导 致 内 
存 不 够 用 ， 因 此 启动 内 存 压 


禁止 自行 触发 GC 


为 了 保证 不 出 现 promotion 
failed 


-XX:CMSInitiatingPermOccupancyFraction 


-XX:-CMsSIncrementalMode 


上 面 的 参数 对 CMS 来 讲 都 非常 重要 。 下 面 的 代码 是 配置 CMS 相关 参数 的 ， 旱 


设置 Perm Gen 使 用 和 到达 
多 少 比 率 时 触发 
设置 为 增 量 模式 


二 要 添加 到 hbase-env.sh 文 件 中 。 


用 于 单 CPU 的 情况 


export HBASE OPTS-"-XX: +UseConcMarkSweepGC" -XX: CMSInitiatingOccupancyFraction- 


70 -XX: *UseCMSCompactAtFullCollection -XX: CMSFullGCsBeforeCompaction-10 


3 .辅助 参数 
助 参数 主要 是 针对 日 志 输出 ， 下 面 的 代码 是 配置 日 志 输出 的 参数 。 


export HBASE OPTS-"SHBASE OPTS -verbose: gc 
PrintGCTimeStamps -Xloggc: S(HBASE HOME]/1ogs/gc-hbase.log" 


-XX: *PrintGCDetails -XX: + 


Rm, 


-verbose:gc 指 


定 输出 虚拟 机 中 的 详细 信息 ，-XX:+PrintGCDetails 指 定 


输出 格式 ,格式 如 下 : 


CMS-concurrent-mark-start] 
CMS-concurrent-mark: 0.031/0.031 secs] 
CMS-concurrent-preclean-start] 
CMS-concurrent-preclean: 0.003/0.003 secs] [Times: 
GC[YG occupancy: 836 K (19136 K) ]14983.298: 
14983.303: [weak refs processing. 0.0018150 secs] [1 CMS-rema 
45561K (83008K) , 0.0067150 secs] [Times: user-0.02 sys-0.00, 
CMS-concurrent-sweep-start] 
CMS-concurrent-sweep:  0.148/0.148 secs] 
CMS-concurrent-reset-start] 
CMS-concurrent-reset:  0.049/0.049 secs] [Times: 
GC 14986.103: [ParNew: 17310K-5305K (191368) , 
0.0070900 secs] [Times: user-0.02 sys=0.00， 
GC 14988.786: [ParNew: 17329K-2448K (191368) , 
0.0056630 secs] [Times: user-0.02 sys-0.00, 


[Times: user-0.06 sys-0.0 


[Times: user-0.17 sys-0. 

user-0.05 sys-0. 
0.0066160 secs] 
real-0.01 secs] 
0.0051820 secs] 
real-0.00 secs] 


user-0.01 sys- 
[Rescan (parallel) , 


0, real-0.03 secs] 


0.00, real-0.01 secs] 
0.0044090 secs] 


rk: 44724K (6387280 ] 
real-0.01 secs] 

O01, real-0.15 secs] 
00, real-0.05 secs] 


20840K-»3862K (83008K) , 


20886K-»24016K (83008K) , 


-XX:+PrintGCTimeStamps 表 示 输 出 GC 的 时 间 ， 这 里 | 


这 里 的 时 间 指 的 是 距离 启动 JVM 时 刻 的 时 间 ， 格 式 如 下 : 


133.433: [GC 133.434: [ParNew: 17701K->529K (19136K) , 0.0060520 
2803K (83008K) , 0.0064550 secs] [Times: user-0.01 sys-0.00, 
158.647: [GC 158.647: [ParNew: 17553K->509K (19136K) , 0.0057110 


2836K (83008K) , 0.0061590 secs] [Times: user-0.02 sys-0.00, 


secs] 19907K-» 
real-0.01 secs] 
secs] 19827K-» 
real-0.01 secs] 


-Xloggc 参 数 指 定 GC 输 出 日 志 的 输出 路 径 。 


124 ”HBase 查 询 优化 


HBase 作 为 一 个 NoSQL 数 据 库 ， 增 、 删 、 改 、 查 是 其 最 基本 的 功能 ， 其 中 ， 
124.1 设置 Scan 缓存 


查询 操作 是 最 常 


的 一 项 。 下 面 的 内 容 将 详细 介绍 如 何 优化 查询 操作 。 


HBase 的 Scan 查询 中 可 以 设置 缓存 ， 定 义 一 次 交互 从 服务 器 端 传输 到 客户 端的 行 数 ， 设 置 方法 是 使 有 


询 的 性 能 。 下 面 的 代码 展示 了 如 何 使 


HTable table 
Scan scanner 
/* batch and caching */ 
scanner.setBatch (0) ; 


new HTable 


new Scan () 


setCaching () 方法 。 


(config, Bytes.toBytes (tableName) ) ; 


scanner.setCaching (10000) ; 


ResultScanner rsScanner = 
for (Result res : 


table.getScanner (scanner) ; 


rsScanner) { 


final List«KeyValue» list = res.list O ; 


String rk - null; 


StringBuilder sb = new StringBuilder () ; 


for (final KeyValue kv : 
Sb.append (Bytes.toStringBinary (kv.getValue () ) 


list) ( 


domo tu 


rk = getRealRowKey (kv) ; 


} 
if (sb.toString C 


Sb.setLength (sb.toString () .length () 


) .length () > 0 


= 1a 


System.out.println (rk + "Nt" + sb.toString () ) ; 


rsScanner.close () ; 


Scan 类 中 setCaching () 方法 ， 这 样 能 有 效 地 减少 服务 器 端 和 客户 端的 交互 ， 更 好 地 提升 扫描 查 


12.4.2” 显 式 地 指定 列 


当 使 


指定 列 的 addColumn () 方法 。 


Scan 或 Get 来 处 理 大量 的 行 时 ， 最 好 确定 一 下 所 需要 的 列 。 
精确 的 需求 ， 能 够 很 大 程度 上 减少 网 络 VO 的 花费 ， 否 则 会 造成 很 大 的 资源 浪费 。 如 果 在 查询 中 指定 某 列 或 者 某 几 列 ， 能 够 有 效 地 减少 网 络 传输 量 ， 在 一 定 程度 上 提升 查询 性 能 。 下 面 代 码 是 使 


为 服务 器 端 处 理 完 的 结果 ， 


需要 通过 网 络 传输 到 客户 端 ， 而 


此 时 ， 传 输 的 数据 量 成 为 瓶颈 ， 如 果 能 有 效 地 过 滤 部 分 数据 ,使 


更 


Scan 类 中 


HTable table 
Scan scanner 


/* 指定 列 */ 


new HTable 
new Scan () 


scanner.addColumn (Bytes.toBytes (columnFamily) , 


ResultScanner rsScanner - 
for (Result res : 


(config, Bytes.toBytes (tableName) ) ; 


Bytes.toBytes (column) ) ; 
table.getScanner (scanner) ; 


rsScanner) { 


final List«KeyValue» list - res.list O ; 


String rk - null; 


StringBuilder sb - new StringBuilder O ; 


for (final KeyValue kv : 
Sb.append (Bytes.toStringBinary (kv.getValue () ) 


list) ( 


事 "33 


rk = getRealRowKey (kv) ; 


} 
if (sb.toString O .length () 
Sb.setLength (sb.toString () .length () 


> 0) 
= 1 


System.out .Println (rk + "Nt" + sb.toString () ) ; 


} 


rsScanner.close () ; 


12.443 ”关闭 ResultScanner 


ResultScanner 类 


资源 的 不 可 


于 存储 服务 端 扫描 的 最 终结 果 ， 可 以 通过 遍 
， 还 有 可 能 引发 RegionServer 的 其 他 问题 。 所 以 在 使 


rsScanner.close () 就 是 执行 关闭 ResultScanner 的 代码 。 


124.4 禁用 块 缓存 


Scan 扫描 中 可 以 使 
取 一 遍 ， 如 果 使 


124.5 ”优化 行 键 查询 


对 表 进 行 全 表 Scan 的 时 候 ， 如 果 仅 需要 行 键 ， 而 不 需要 列 族 、 列 名 、 值 和 时 间 戳 等 信息 ， 可 以 使 
添加 MUST_PASS_ALL 操 作 参 数 ， 使 用 FilterList 封 装 两 个 过 滤器 。 一 个 是 FirstKeyOnlyFilter， 另 一 个 是 KeyOnlyFilter。 通 过 这 样 | 


默认 值 ， 即 使 


块 缓存 ， 通 过 setCacheBlocks () 方法 控制 。 如 果 批量 进行 全 表 扫 描 ， 例 如 MapReduce 任 务 读 取 全 表 数 据 ， 需 要 将 该 值 设 置 为 false。 默 认 是 true。 


块 缓存 ， 会 降低 扫描 的 效率 。 但 是 ， 对 于 经 常 读 到 的 行 ， 建 议 使 块 缓冲 。 


同时 最 小 化 客户 端的 网 络 带宽 占 


124.6 ”通过 HTableTool 访 问 


HTable 对 象 对 于 客户 端 读 写 数据 来 说 不 是 线程 安全 的 ， 因 此 多 线程 时 ， 要 为 每 个 线程 单独 创建 复 用 一 个 HTable 对 象 ， 不 同 对 象 间 不 要 共享 HTable 对 象 使 
时 ， 由 于 存在 本 地 Write Buffer， 可 能 导致 数据 不 一 致 。 


HTablePool 连 接线 程 池 机 制 可 以 解决 HTable 存 在 的 线程 不 安全 问题 ， 同 时 通过 维护 固定 数量 | 


间 。HTablePool 的 使 用 方法 如 下 : 


过 滤器 来 减少 服务 器 端 返 


回 


的 数据 量 ， 降 低 网 络 VO。 使 


方法 是 : 使 


的 HTable 对 象 ， 能 够 在 程序 运行 期 间 复 上 


这 些 HTable 资 源 对 象 ， 以 节省 资源 创建 时 间 和 降低 堆 内 存 使 


public class HTablePoolTest ( 
protected static String TEST TABLE NAME = "testtable"; 
protected static String ROW1 STR = "rl"; 
protected static String COLFAMI STR = "cfl"; 
protected static String QUAL1 STR = "c1"; 
private final static byte[] ROW1 = Bytes.toBytes (ROWl STR) ; 
private final static byte[] COLFAMI = Bytes.toBytes (COLFAMI STR) ; 
private final static byte[] QUAL1 = Bytes.toBytes (QUAL] STR) ; 
private static HTablePool pool: E 


public static void init () 


throws IOException ( 


Configuration conf = HBaseConfiguration.create () ; 


P 
// 填充 线程 池 


ool = new HTablePool (conf, 


10) ; 


HTableInterface[] tables = new HTableInterface [10]: 


for (int n=0; n 


«10; nr) 


tables[n] = pool.getTable (TEST TABLE NAME) ; 


) 
for (HTableInterface table : 


table.close () ; 
) 
} 


private Result get () 


tables) { 


{ 
// 从 线程 池 获 取 HTable 对 象 
HTableInterface table = pool.getTable (TEST TABLE NAME) ; 
Get get = new Get (ROWl) ; 


try { 


， 特 别 是 在 客户 端 AutoFlush 被 置 为 false 


历 该 类 获取 查询 结果 。 但 是 ， 如 果 不 关 闭 该 类 ， 可 能 会 出 现 服务 端 在 一 段 时 间 内 一 直 保存 连接 ， 资 源 无 法 释放 ， 从 而 导致 服务 器 端 某 些 
完 该 类 之 后 ， 需 要 执行 关闭 操作 。 这 一 点 与 JDBC 操 作 MySQL 类 似 ， 需 要 关闭 连接 。 在 12.4.2 节 中 ， 代 码 的 最 后 一 行 


为 全 表 扫描 ， 每 条 记录 只 读 


Scan 的 setFilter () 方法 ， 
的 过 滤器 组 合 ， 就 算 在 最 坏 的 情况 下 ，RegionServer 只 会 从 磁盘 读 一 个 值 ， 


内 


Result result = table.get (get) ; 
return result; 

) catch (IOException e) ( 
e.printStackTrace () ; 
return null; 


table.close () ; 
) catch (IOException e) ( 
e.printStackTrace () ; 
$ 


12.4.7 ”使 用 批量 读 


通过 调用 HTable.get (Get) 方法 可 以 根据 一 个 指定 的 行 键 获取 HBase 表 中 的 一 行 记录 。 同 样 HBase 提 供 了 另 一 个 方法 ， 通 过 调用 HTable.get (List«Get») 方法 可 以 根据 一 个 指定 的 行 键 列表 ， 批 量 获 
取 多 行 记录 。 使 用 该 方法 可 以 在 服务 器 端 执行 完 批量 查询 后 返回 结果 ， 降 低 网 络 传输 的 速度 ， 节 省 网 络 /O 开 销 ， 对 于 数据 实时 性 要 求 高 且 网 络 传输 RTT 高 的 场景 ， 能 带 来 明显 的 性 能 提升 。 批 量 读 的 使 用 方 
法 如 下 : 


HTable table = new HTable (config, Bytes.toBytes (tableName) ) ; 
Get getl = new Get (ROW) ; 
Get get2 - new Get (ROW2) ; 
Get get3 - new Get (ROW3) ; 
List«Get» gets = new Arraylist«Get» () ; 
gets.add (get1) ; 
gets.add (get2) ; 
gets.add (get3) ; 
try { 
Result[] result = table.get (gets) ; 
return result; 
catch (IOException e) ( 
e.printStackTrace () ; 
return null; 
finally ( 
try { 
table.close () ; 
) catch (IOException e) ( 
e.printStackTrace () ; 


} 
} 


1248 ”使 用 Filter 降 低 客户 端 压力 


an 


和 面 10.1 节 已 经 详细 介绍 了 过 滤器 的 原理 、 分 类 和 使 用 方法 ， 例 如 ， 可 以 使 用 FirstKeyOnlyFitter， 从 而 避免 在 执行 Scan 扫描 行 键 的 时 候 ， 将 所 有 数据 都 读 取 到 客户 端 ; 可 以 使 用 
ColumnCountGetFilter 获 取 某 几 列 ; 可 以 使 用 QualifierFilter 过 滤 前 缀 是 “M_” 的 列 ， 同 样 可 以 减少 数据 传输 量 。 这 里 不 再 累 述 ， 详 见 10.1 节 内 容 。 


124.9 ”使 用 Coprocessor 统 计 行 数 


对 于 表 的 行 数 统计 ， 目 前 有 两 种 常用 的 操作 方法 : 


: MapReduce。 借 助 HTableInputFormat 实 现 对 于 Rowkey 的 划分 ， 并 行 访 问 表 数据 ， 访 问 性 能 很 高 ， 但 是 占用 的 资源 很 多 ， 对 于 生产 环境 的 影响 比较 大 。 同 时 这 种 方法 延 时 比较 高 ， 一 般 情况 下 都 在 分 钟 
级 别 ， 不 适合 应 用 频繁 访问 。 


“ Scan+KeyOnlyFilter。 可 以 借助 过 滤器 的 功能 ， 尽 可 能 实现 数据 在 RegionSetver 端 进行 统计 ， 减 轻 Client 端 的 压力 。 但 是 ， 当 表 较 大 时 ， 遍 历 一 个 Region 的 时 间 也 非常 长 ， 延 迟 高 ， 用 户 体 验 下 降 。 


基于 上 面 两 种 方法 的 缺点 ， 可 以 考虑 使 用 Coprocessor 新 特性 ， 使 用 协 处 理 器 实现 实时 行 数 统计 ， 支 持 实时 查询 (毫秒 级 ) 。HBase 代 码 包 中 已 经 提供 了 行 键 统计 的 协 处 理 器 实现 : 
org.apache.hadoop.hbase.coprocessorAggregatelmplementation， 只 要 注册 后 即 可 生效 。10.3 节 中 已 经 详细 介绍 如 何 应 用 协 处 理 器 ， 其 中 的 Shell 加 载 方式 中 的 例子 就 是 使 用 协 处 理 器 统计 行 数 的 示 
例 ， 当 然 也 可 以 使 用 java 代码 的 方式 实现 ， 过 程 如 下 : 


首先 ， 加 载 协 处 理 器 ， 代 码 如 下 : 


String coprocessClassName = "org.apache.hadoop.hbase.coprocessor.AggregateImplementation"; 
HBaseAdmin admin = new HBaseAdmin (HBaseConfiguration.create () ) ; 

admin.disableTable (tableName) ; 

HTableDescriptor htd = admin.getTableDescriptor (tableName) ; 

htd.addCoprocessor (coprocessClassName) ; 

admin.modifyTable (tableName, htd) ; 

admin.enableTable (tableName) ; 


其 次 ， 执 行 查询 ， 代 码 如 下 : 


Scan s = new Scan O ; 
s.addColumn (Bytes.toBytes ("cf1") , Bytes.toBytes ("c1") ) ; 
AggregationClient ac = new AggregationClient (HBaseConfiguration.create () ) ; 
try { 

return ac.rowCount (tableName, new LongColumnInterpreter () , s); 
} catch (Throwable e) ( 

e.printStackTrace () ; 
} 


return 0; 


12440 ”缓存 查询 结果 


对 于 频繁 查询 HBase 的 应 用 场景 ， 查 询 中 使 用 一 些 Filter， 并 且 对 实时 性 和 吞吐 量 要 求 都 比较 高 ， 此 时 可 以 考虑 在 应 用 程序 和 HBase 之 间 做 一 层 缓存 系统 ， 当 有 新 查询 发 出 请 求 时 ， 首 先 在 缓存 中 查找 ， 
如 果 存 在 则 直接 返回 ， 不 存在 则 查询 HBase， 然 后 将 返回 结果 返回 应 用 程序 ， 同 时 保存 一 份 到 缓存 系统 。 对 于 缓存 策略 可 以 使 用 RU， 也 可 以 设置 记录 的 生存 时 间 。 


125 HBase 写 入 优化 


写 入 操作 也 是 HBase 的 最 常用 功能 之 一 ， 并 且 HBase 在 写 入 操作 上 有 着 其 他 NoSQL 数 据 库 无 法 比拟 的 优势 。 下 面 的 内 容 将 详细 讲解 如 何 优化 写 入 操作 。 


12.5.1 关闭 写 WAL 日 志 


志 是 开启 状态 。 写 WAL 开 


在 默认 情况 下 ， 为 了 保证 系统 的 高 可 
机 制 ， 如 果 应 用 可 以 容忍 一 定 的 数据 丢失 的 
通过 Put 类 中 的 writeToWAL () i£ 体 的 设置 方法 如 下 


性 ， 写 WAL 


代码 所 示 : 


H] 


' 


宫 或 者 关闭 ， 在 一 定 程度 上 确实 会 
风险 ， 可 以 尝试 在 更 新 数据 时 ， 关 闭 写 WAL。 该 方法 存在 的 风险 是 ， 当 RegionServer 宕 机 时 ， 可 能 写 入 的 数 


寺 系 统 性 能 产生 很 大 影响 ， 根 据 HBase 内 部 设计 ，WAL 是 规避 数据 丢失 风险 的 一 种 补偿 
居 会 出 现 丢 失 的 情况 ， 且 无 法 恢复 。 关 闭 写 WAL 操 作 


long st = System.currentTimeMillis () ; 

Put put = new Put (Bytes.toBytes ("r1") ) ; 
put.add (Bytes.toBytes ("cfl") , Bytes.toBytes 
Bytes.toBytes (123111) ) ; 


("mid") , 


put.add (Bytes.toBytes ("cf1") , Bytes.toBytes ("stat hour") ， 
Bytes.toBytes ("20") ) ; 

put.add (Bytes.toBytes ("cfl") , Bytes.toBytes ("logdate") , 
Bytes.toBytes ("20121126") ) ; 

put.add (Bytes.toBytes ("cfl") , Bytes.toBytes ("ditch") , 
Bytes.toBytes ("2") ) ; 

put.add (Bytes.toBytes ("cfl") , Bytes.toBytes ("version") , 
Bytes.toBytes ("3.2.2.2") ) 

put.add (Bytes.toBytes ("cfl") , Bytes.toBytes ("type") , 


Bytes.toBytes ("2") ) ; 

put.setWriteToWAL (false) ; 

table.put (put) ; 

table.close O ; 

long en = System.currentTimeMillis () ; 
System.out.println ("time: "+ (en - st) 


+ "http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 


ms"); 


12.5.2 ”设置 AutoFlush 


HTable 有 一 个 属性 是 AutoFlush ， 该 属性 用 于 支持 客户 端的 批量 更 新 。 该 
该 请 求 在 客户 端 缓存 ， 直 到 数据 达到 某 个 阔 值 的 
互 ， 采 用 批量 提交 的 方式 ， 所 以 更 高 效 。 但 是 ， 如 果 还 没有 达到 该 缓存 而 客 


RARE 


属性 默认 值 是 true， 即 客户 端 每 收 到 一 


[E 


Pinih, AEDA 


Ti 


HTable 设 置 AutoFlush 的 示例 代码 如 下 : 


条 数据 ， 立 刻 发 送 到 服务 端 。 如 果 将 该 属性 设置 为 false， 当 客户 端 提交 Put 请 求 时 ， 将 


容量 时 (该 容量 由 参数 hbase.client.write.buffer 决 定 ) 或 执行 hbase.flushcommits () 时 ， 才 向 RegionServer 提 交 请 求 。 这 种 方式 避免 了 每 次 跟 服务 端 交 
居 将 由 于 未 发 送 到 RegionServer 而 丢失 。 这 对 了 


有 些 零 容 忍 的 在 线 服务 是 不 可 接受 的 。 所 以 ， 设 置 该 参数 的 


public static final boolean AUTO FLUSH = false; 
public static final int WRITE BUFFER SIZE = 12 * 1024 * 1024; 
public void put O throws IOException { 

table.setAutoFlush (AUTO FLUSH) ; 

table.setWriteBufferSize (WRITE BUFFER SIZE) ; 

long st = System.currentTimeMillis () ; 

Put put = null: 


for (inti = 0; i < 100000; i++) ( 
put = new Put (Bytes.toBytes ("rowl") , 101) ; 
put.add (Bytes.toBytes ("cfl") , Bytes.toBytes ("mid"), 


Bytes.toBytes (123111) ) : 
put.add (Bytes.toBytes ("cfl"), 
Bytes.toBytes ("20") ) ; 
put.add (Bytes.toBytes ("cfl") 
Bytes.toBytes ("20121126") ) ; 
put.add (Bytes.toBytes ("cfl") , 
Bytes.toBytes ("2") ) ; 
put.add (Bytes.toBytes ("cfl"), 
Bytes.toBytes ("3.2.2.2") ) 1 
put.add (Bytes.toBytes ("cfl") , 
Bytes.toBytes ("2") ) ; 
put.setWriteToWAL (true) ; 
table.put (put) ; 
if ((i$1000 = 0) { 
System.out.println (i +" 


Bytes.toBytes ("stat hour") , 


Bytes.toBytes ("logdate") , 


Bytes.toBytes ("ditch") , 


Bytes.toBytes ("version") , 


Bytes.toBytes ("type") , 


DOCUMENTS done! ") ; 
) 

} 

table.flushCommits O ; 

table.close () ; 

long en = System.currentTimeMillis () ; 

System.out.println ("time: "+ (en - st) 


+ "http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 


ms"); 


12.5.3 melli&Region 


在 HBase 中 创建 表 时 ， 该 表 开 始 只 有 一 个 Region， 插 入 该 表 的 所 有 数据 会 保存 在 该 Region 中 。 随 着 数 


居 量 不 断 增 加 ， 当 该 Region 大 小 达到 一 定 阔 值 时 ， 就 会 发 生 分 裂 (Region Splitting) 操作 。 并 且 


在 这 个 表 创 建 后 相当 长 的 一 段 时 间 内 ， 针 对 该 表 的 所 有 写 操作 总 是 集中 在 某 一 台 或 者 少数 几 台 机 器 上 ， 这 不 仅仅 造成 
批量 导入 原始 数据 的 时 候 ， 特 别 明显 。 为 了 解决 这 个 问题 ， 可 以 使 用 预 创建 Region 的 方法 。 


局 部 磁盘 和 网 络 资源 紧张 ， 同 时 也 是 对 整个 集群 资源 的 浪费 。 这 个 问题 在 初始 化 表 ， 即 


HBase E SU! 


预 创建 分 区 共有 两 种 方法 : 一 种 是 使 


带 的 RegionSplitter 工 ， 建 Region; 另 一 种 是 使 用 用 户 


己 的 分 区 算法 进行 预 创建 Region。 下 面 分 别 详 细 介绍 两 种 不 同 的 预 创建 Region 的 方法 。 


会 使 


首先 ， 第 一 种 是 使 
"T 


MD5 算 法 来 生成 MD5 校 


RegionSplitter 的 方法 。 在 默认 情况 下 ，RegionSplitter 工 . 


验 和 ， 以 此 来 作为 Region 开 始 键 。 键 值 的 范围 是 00000000 到 7FFFFFFF， 使 用 命令 如 


S(HBASE HOME}/bin/hbase org.apache.hadoop.hbase.util.RegionSplitter test2 
HexStringSplit -c 10 -f cfl 


其 中 ，test2 是 表 名 ，HexStringSplit 表 示 划 分 的 算法 ， 参 数 -c 10 表 示 预 创建 10 个 Region，-f cf1 表 示 创 建 一 个 名 字 为 cf1 的 列 族 。 预 创建 Region 后 表 test2 的 Region 划 分 情况 如 


[R] 


12-4 所 示 。 


Table Regions 


Name Region Server Start Key End Key R ue 
test2, , 1389510564449. 6db3108163e75b36ed88eb326dcds3dT， node-128-91 :60030 
test2, 19999999, 1389510554449. £7£062612426c3596366421349461395.|node-128-92:6002019999999 [333333320 | 
test2, 33333332, 1389510564449. 3aa26b82cadl8edc8fcTblf6ad7d405c. node-128-92:60030|33353332 | tceececuu | 


test2, 4ccccccb, 1389510564450. c8d82663bfib5cb334f94agccde61a09. node-128-91:60030 4ececccb |6686666dD | 


test2, 66666664, 1389510584450. 395eb8e420laal81a4c11923cf6f90dc. node-128-92 :60030 一 
Lest2 TEEFÉfEA, 1389510554450. 30d2d474belfeebS37224385e4270d53. |7Efffffd |99999996] 

ltest2, 99959995, 1383510564450. 80254c33blf35012dc8c721fcdbcf294.| nod:-128-91:60050 9 0[99999996 ]w3533328|) | 
testZ, b333332£, 1389510564450. 6d93ddff5b2edc0316997dcf8a8dclbd. T -- 


test, ccccccc3 1389510564450. 9cd5fd98flz2agb313bDfd13431fdd61.| test, ccccccc8, 1383510564450. 9cd5fd98fle2aBbBl3b0f413431fdd6l.|naode-128-95:60030|ceccccc8 |e6566661|2) | 
test2, e666666L, 1389510554450. 2b587522943df6f2473d3607f345ef0c. node-128-93:60030|ee6eeee] | |o | 


图 12-4 ” 表 test2 的 预 创 建 Region 


用 户 使 用 自 定义 的 算法 进行 预 创建 Region 的 方法 使 用 起 来 比较 复杂 ， 需 要 先 创建 分 区 文件 ， 指 定 划分 的 行 键 ， 然 后 创建 算法 ， 并 编译 文件 ， 之 后 运行 代码 创建 表 。 下 面 介绍 该 方法 详细 的 操作 流程 。 


1. 创 建 split-keys 文 件 


创建 split-keys 文 件 ， 在 该 文件 中 输入 一 组 Region 分 割 的 行 键 ， 每 个 行 键 一 行 。 假 设 该 文件 包含 如 下 一 些 行 键 : 


$ cat split-keys 

00036F99-B8FF-82E0-9F42-51A19AC6F121 
00034B0C-C7A9-6DB1-88B4-1FAE85E6E42C 
0002B1D6-6E81-D226-4962-99307BA6A6BA 
0000E909-AFFF-97C4-FE64-ECBO9B30EF2F 


2. 创 建 分 割 算法 Java 类 


RowkeyFileSplit 类 需要 实现 org.apache.hadoop.hbase.util.RegionSplitter.SplitAlgorithm 接 口 ， 其 中 最 重要 的 是 实现 split () 方法 。 该 类 的 具体 实现 如 下 : 


import java.io.BufferedReader; 
import java.io.File; 
import java. io.FileNotFoundException; 
import java.io.FileReader; 
import java. io. IOException; 
import java. util.ArrayList; 
import java.util.List; 
import org.apache.hadoop.hbase.util.Bytes; 
import org.apache.hadoop.hbase.util.RegionSplitter.SplitAlgorithm; 
public class RowkeyFileSplit implements SplitAlgorithm { 
public static final String SPLIT KEY FILE = "split-keys"; 
GOverride 
public byte[] firstRow O ( 
return null; 
$ 


GOverride 
public byte[] lastRow O { 
return null; 


GOverride 

public String rowToStr (byte[] row) ( 
return null; 

} 


GOverride 
public String separator () { 
return null; 


} 

GOverride 

public byte[] split (byte[] start. byte[] end) { 
return null; 

} 


GOverride 
public byte[][] split (int numberOfSplits) ( 
BufferedReader br - null; 
try { 
File keyFile - new File (SPLIT KEY FILE) ; 
if (!keyFile.exists O) { — 7 
throw new FileNotFoundException ("Split key file not found: " 
+ SPLIT KEY FILE) : 
} 
List<byte[]> regions = new ArrayList«byte[]» O ; 
br = new BufferedReader (new FileReader (keyFile) ) ; 
String line; 
while ( (line = br.readLine () ) ! = null) ( 
if (line.trim O .length O > 0 { 
regions.add (Bytes.toBytes (line) ) ; 
} 
H 
return regions.toArray (new byte[0][]) : 
) catch (IOException e) ( 
throw new RuntimeException ("Error reading split keys from " 
+ SPLIT KEY FILE, e); 
) finally ( 
if (br ! = null) { 
try { 
br.close () ; 
} catch (IOException e) ( 
// ignore 
} 
} 
} 
} 
GOverride 
public byte[] strToRow (String input) ( 
return null; 
$ 


Override 

public void setFirstRow (String userInput) ( 
// TODO Auto-generated method stub 

) 


GOverride 

public void setLastRow (String userInput) ( 
// TODO Auto-generated method stub 

} 


} 


3 .编译 并 执行 新 算法 


使 用 下 面 的 代码 编译 上 一 步 中 实现 的 Java 类 ， 并 且 将 第 一 步 中 创建 的 行 键 文件 也 复制 到 RowkeyFilesplit 类 编译 后 生成 的 java 二进制 文件 所 在 的 目录 下 ， 然 后 将 这 两 个 文件 都 复制 到 HBase 的 主 目录 下 。 
执行 下 面 的 编译 和 预 创建 命令 ， 运 行 完 成 后 可 以 看 到 如 图 12-5 所 示 的 表 test3 的 Region 划 分 情况 。 


javac -classpath S$HBASE HOME/hbase-0.94.*.jar RowkeyFileSplit.java 

Cd S(HBASE HOME) bi 

bin/hbase org.apache.hadoop.hbase.util.RegionSplitter test3 RowkeyFileSplit 
-c 10 -f cfl: cf2 


在 上 面 的 预 创建 Region 的 命令 中 ， 如 果 需 要 创建 多 个 列 族 ， 即 -f 参 数 指定 值 ， 使 用 冒号 分 隔 的 多 个 列 族 名 称 即 可 。 


Table Regions 


DO000E909-APFF-97C6-PE64-EC30S630EFIR 10)261D6-5E21-1225-4962-993 
TREE 00034B0C-CTAI-60B1-8884-1F 0 
| 3Ql[0003650C 0C h9-6DB1 -88b4-1F AEEOEGE42C| 00036F 99-52F FE -8ZEU-9F 47 51 A1 3? 
G6F 99-8FF -G2E0-9F42-S1ALONCEF121] 


test? 000251D6-6EE1-D225-4962-99S0TBASASBA 58951 500€ 
[test?, 00036b0C-C743-5Db1 -S8B4-1 FAFGSEGI a, 1389513000183 
85513000186 


图 12-5 用 户 自 定 义 分 割 算法 预 创建 Region 


但 是 ， 还 有 一 点 需要 注意 ， 即 便 是 在 Region 进 行 过 分 割 之 后 ， 仍 然 需要 在 应 用 层 对 行 键 进行 设计 ， 以 避免 将 过 多 连续 的 行 键 写 入 同一 个 Region， 因 此 需要 找到 一 种 合适 的 数据 访问 模式 的 分 割 算法 。 


12.5.4 ”延迟 日 志 flush 


在 默认 情况 下 ， 写 入 操作 开启 写 WAL 日 志 ， 并 且 会 在 很 短 时 间 内 写 入 HDFS。 这 个 时 间 默 认 是 1 秒 。 该 时 间 通 过 参数 hbase.regionserver.optionallogflushinterval 配 置 ， 详 见 下 面 代码 : 


<property> 
<name>hbase.regionserver.optionallogflushinterval</name> 
<value>1000</value> 
<description>Sync the HLog to the HDFS after this interval if it has not 
accumulated enough entries to trigger a sync. Default 1 second. Units: 
milliseconds. 
</description> 

</property> 


如 果 采 用 增 大 该 延迟 flush 时 间 ， 例 如 将 该 值 设置 为 5 秒 ， 在 这 段 时 间 中 ，WAL 日 志 会 保留 在 内 存 中 ， 直 到 RegionServer 维 护 的 该 周期 性 flush 操 作 执 行 。 这 样 做 的 优势 是 能 减少 WAL 日 志 到 HDFS 同 步 的 
次 数 ， 提 升 写 入 效率 ， 缺 点 是 如 果 RegionServer 发 生 宕 机 ， 将 会 有 更 多 的 数据 丢失 。 因 此 ， 需 要 根据 实际 的 业务 情况 定义 该 值 的 大 小 ， 在 某 些 可 以 承受 少量 数据 丢失 的 应 用 中 可 以 果断 地 增 大 该 值 。 


12.5.5 ”通过 HTableTool 访 问 


12.4 节 已 经 讲 到 了 HTablePool 连 接线 程 池 机 制 ， 它 可 以 解决 HTable 存 在 的 线程 不 安全 问题 ， 同 时 通过 维护 固定 数量 的 HTable 对 象 ， 能 够 在 程序 运行 期 间 复 用 这 些 HTable 资 源 对 象 ， 以 节省 资源 创建 时 
间 和 降低 堆 内 存 使 用 空间 。 它 不 仅 可 以 应 用 到 查询 优化 ， 同 样 可 以 应 用 到 写 入 优化 中 。 


使 用 HTablePool 优 化 写 入 操作 的 示例 如 下 : 


public class HTablePoolTest ( 

protected static String TEST TABLE NAME = "testtable"; 
protected static String ROWl STR = "rl"; 
protected static String COLFAMI STR = "cf1"; 
protected static String QUALI : STR = "cl"; 
private final static byte[] ROW1 = Bytes.toBytes (ROWl STE) ; 
private final static byte[] COLFAM1 = Bytes.toBytes (COLFAM] STR) ; 
private final static byte[] QUAL1 = Bytes.toBytes (QUALl STR7 ; 
private static HTablePool pool; 
public static void init © throws IOException { 

Configuration conf = HBaseConfiguration.create () ; 

pool = new HTablePool (conf, 10); 

7 / 填充 线程 池 

HTableInterface[] tables = new HTableInterface[10]; 

for (intn=0 n< 10; n+) { 

tables[n] = pool.getTable (TEST TABLE NAME) ; 


H 
for (HTableInterface table : tables) { 
table.close () ; 
} 
} 
private void put () { 
// 从 线程 池 获 取 HTable 对 象 
HTableInterface table = pool.getTable (TEST TABLE NAME) ; 
Put put = new Put (ROW1) ; p B 
put.add (Bytes.toBytes ("cfl") , Bytes.toBytes ("mid") , 
Bytes.toBytes (123456) ) ; 
try ( 
table.put (put) ; 
) catch (IOException e) { 
e.printStackTrace () ; 
} finally { 
try { 
table.close O ; 
) catch (IOException e) { 
e.printStackTrace () ; 
} 


12.5.6 ”使 用 批量 写 


通过 调用 HTable.put (Put) 方法 可 以 将 一 个 指定 的 行 键 记录 写 入 HBase， 同 样 HBase 提 供 了 另 一 个 方法 ， 通 过 调用 HTable.put (List<Put> ) 方法 可 以 将 指定 的 多 个 行 键 批 量 写 入 。 这 样 做 的 好 处 是 批 
量 执行 ， 减 少 网 络 VO 开 销 。 对 于 批量 写 入 方法 的 使 用 见 下 面 代 码 : 


HTable table = new HTable (config, Bytes.toBytes (tableName) ) ; 

Put putl = new Put (ROW) ; 

put.add (Bytes.toBytes ("cfl") , Bytes.toBytes ("mid") , Bytes.toBytes (123456) ) ; 
Put put2 = new Put (ROW2) ; 

put.add (Bytes.toBytes ("cfl") , Bytes.toBytes ("mid") , Bytes.toBytes (123456) ) ; 
Put put3 = new Put (ROW3) ; 

put.add (Bytes.toBytes ("cfl") , Bytes.toBytes ("mid") , Bytes.toBytes (123456) ) ; 
List«Put» puts - new ArrayList«Put» () ; 

puts.add (Put1) ; 


puts.add (Put2) ; 
puts.add (put3) ; 
try { 
table.put (puts) ; 
) catch (IOException e) ( 
e.printStackTrace () ; 
] finally ( 
try { 
table.close () ; 
) catch (IOException e) ( 
e.printStackTrace () ; 
} 
} 


12.6 ”HBase 基 本 核心 服务 优化 


分 裂 和 合并 是 HBase 底 层 最 基本 的 两 项 核心 服务 ， 保 证 了 数据 的 切 分 和 快速 写 入 的 效率 。 本 节 将 介绍 如 何 优化 这 两 项 核心 服务 。 


12.6.1 ”优化 分 裂 操 作 


通过 hbase.hregion.max.filesize 参 数 可 以 控制 Region 的 分 裂 (Split) ， 这 部 分 内 容 已 经 在 9.2.3 小 节 中 有 所 介绍 。 本 节 将 阐述 手动 分 裂 的 应 用 场景 以 及 如 何 实现 手动 分 裂 。 


一 般 来 说 ， 如 果 出 现下 面 的 任意 情况 之 一 ， 需 要 停止 自动 分 裂 ， 采 用 完全 手动 分 裂 的 方式 : 


“ 对 现 有 Region 进 行 Debug 或 者 调 优 ， 分 析 输 出 日 志 信息 。 
“ 停止 自动 分 裂 ， 完 全 使 用 手动 操作 。 
“ 出 现 Hot Region 的 情况 。 


如 何 实现 完全 的 手动 分 裂 呢 ? 


A 


首先 ， 关 闭 自动 分 裂 。 可 以 将 配置 文件 中 的 hbase.hregion.max.filesize 参 数 设置 成 Long.MAX_VALUE， 但 并 不 推荐 这 种 做 法 ， 为 了 防止 遗忘 分 裂 操 作 ， 推 荐 将 该 值 设置 为 100GB。 


其 次 ,使 用 HBase Shell 命 令 控 制 Region 分 裂 。 分 裂 操作 的 示例 如 下 : 


echo "split 'test2, 19999999, 1389510564449.f7f062672426e36963664a134b461395.'" 
$HBASE HOME/bin/hbase shell 

HBase Shell; enter 'help«RETURN»' for list of supported commands. 

Type "exit«RETURN»" to leave the HBase Shell 

Version 0.94.8. r1485407, Wed May 22 20: 53: 13 UTC 2013 

split 'test2, 19999999, 1389510564449.f7f062672426e36963664a134b461395." 

0 row (s) in 0.9320 seconds 


最 后 ， 可 以 调用 JMX 接 口 或 者 实现 Java 监 控 类 ， 能 够 获取 每 个 Region 的 大 小 以 及 访问 频率 ， 再 结合 上 面 的 HBase Shell 命 令 ， 可 以 实现 自动 化 监控 分 裂 脚本 。JMX 相 关 使 用 的 内 容 参见 11.5 节 。Java 实 
现 的 监控 Region 的 方法 如 下 : 


private static void printWriteDiagnosis (String logPath) throws IOException ( 

Configuration conf = HBaseConfiguration.create () ; 

FileSystem fs - FileSystem.get (conf) ; 

FileStatus[] regionServers = fs.listStatus (new Path (logPath) ) ; 

HLog.Reader reader = new SequenceFileLogReader () ; 

Map«String, Long» result = new HashMapcString, Long» O ; 

for (FileStatus regionServer : regionServers) { 
Path regionServerPath = regionServer.getPath () ; 
FileStatus[] logs - fs.listStatus (regionServerPath) ; 
Map«String, Long» parsed = new HashMap«String, Long» (); 
for (FileStatus log : logs) { 


System.out.println ("Processing: " + log.getPath () .toString O ) ; 
reader.init (fs, log.getPath O , conf); 
try ( 

HLog.Entry entry: 

while ( (entry = reader.next () ) ! = null) { 


String tableName = 
Bytes.toString (entry.getKey () .getTablename () ) ; 
String encodedRegionName = 
Bytes.toString (entry.getKey () .getEncodedRegionName () ) ; 
String mapkey = tableName + "/" + encodedRegionName: 
Long editNum = parsed.get (mapkey) ; 
if (editNum == null) { 
editNum = OL; 
} 
editNum += entry.getEdit O .size (); 
parsed.put (mapkey, editNum) ; 
} 
} finally { 
reader.close () ; 
} 
} 
for (String key : parsed.keySet () ) { 
result.put (key, parsed.get (key) ) ; 
} 
} 
System.out.println ("=== Region 检 测 结果 = 
for (String region : result.keySet () ) { 
long editNum = result.get (region) ; 
System.out.println (String.format ("Region: %s Edits f:  $d", region, editNum) ) ; 


PES 


12.6.2 ”优化 合并 操作 


大 合并 (Major Compaction) 过 程 非常 消耗 系统 资源 ， 并 且 合并 过 程 中 写 入 请 求全 部 阻塞 。 在 默认 情况 下 ， 执 行 大 合并 的 周期 是 1 天 ， 用 户 往往 并 不 希望 在 HBase 集 群 “繁忙 ”的 时 候 执行 大 合并 操 
作 。 如 果 可 以 在 指定 的 时 间 执行 大 合并 是 一 个 不 错 的 选择 。 


想 实现 指定 时 间 执 行 大 合并 ， 首 先 要 停止 周期 性 执行 大 合并 操作 ， 即 将 下 面 代码 中 的 参数 设置 为 0。 手 动 控制 大 合并 执行 的 操作 详 见 11.2.1 节 。 


«property» 
«name»hbase.hregion.majorcompaction«/name» 
«value»86400000«/value» 
Xdescription»The time (in miliseconds) between 'major' compactions of all 
HStoreFiles in a region. Default: 1 day. 
Set to 0 to disable automated major compactions. 
«/description» 

«/property» 


127 ”HBase 配 置 参数 优化 


HBase 包 含 很 多 配置 参数 ， 涵 盖 了 HMaster、RegionServer、ZooKeeper 等 多 方面 ， 具 体 的 参数 可 以 参考 文件 : $fHBASE_HOME}/src/main/resources/hbase-default.xml。 但 是 ， 如 果 配 置 这 些 参 


数 ， 需 要 在 4{(HBASE_ HOMEMconf/hbase-site.xml 文 件 中 添加 相应 参数 ， 修 改 完 并 本 


看 启 机 器 生效 。 本 节 将 着 


介绍 一 些 


要 配置 参数 的 性 能 优化 。 


12.7.1 设置 RegionServer Handler 数 量 


通过 参数 hbase.regionserver.handler.count 可 以 调整 每 台 RegionServer Handler 的 数量 ， 该 参数 作 


于 RegionServer 可 以 同时 处 理 多 少 请 求 的 线程 数 。 默 认 值 是 10， 这 个 值 设置 得 比较 小 ， 主 要 是 为 


了 预防 用 户 用 一 个 比较 大 的 写 缓冲 。 如 果 设 置 太 大 ， 会 消耗 很 多 的 内 存 ， 反 而 导致 吞吐 量 降低 ; 如 果 设 置 太 小 ， 请 求 会 被 阻塞 而 得 不 到 正常 响应 。 

该 参数 的 调 优 与 内 存 息息相关 。 如 果 HBase 集 群 上 的 业务 都 是 单 次 请 求 内 存 消耗 较 高 的 写 入 场景 ( 单 次 写 入 量 很 大 或 Scan 设置 了 较 大 的 缓存 ) 或 Regionserver 的 内 存 比较 紧张 的 场景 ， 适 合 较 少 的 10 线 
程 ， 即 该 值 应 该 设置 比较 小 。 这 种 情况 下 使 用 默认 值 即 可 。 

而 如 果 单 次 请 求 内 存 消耗 低 ，TPS 要 求 非常 高 的 场景 ， 应 该 将 该 值 调 大 。 一 般 情况 下 ， 将 该 值 设置 为 10 的 倍数 (nx10) ， 例 如 100。 这 种 情况 下 设置 为 n 在 [2，30] 的 区 间 内 都 属于 正常 范围 ， 至 于 准确 
值 需要 根据 压力 测试 的 结果 来 调整 。 

在 进行 压力 测试 时 ， 需 要 开启 RPC 级 别 的 日 志 ， 可 以 同时 监控 每 次 请 求 的 内 存 消耗 和 GC 的 状况 ， 最 后 通过 多 次 压力 测试 结果 来 合理 调节 1O 线 程 数 。 下 面 介绍 一 下 如 何 开启 RPC 级 别 日 志 信息 。 

1. 打 开 HBase Web 管 理 界面 

HBase Web 管 理 界面 如 图 12-6 所 示 ， 界 面 中 有 一 项 黑 框 标注 的 “Log Level" , 
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图 12-6 HBase Web 管 理 界面 
2. 进 入 日 志 编 辑 页 面 
点 击 图 12-5 中 的 “Log Level” 标 签 ， 进 入 日 志 级 别 编辑 页 面 。 在 第 一 行文 本 框 中 输入 “org.apache.hadoop.ipc” (HBase 中 RPC 相 关 的 包 ) ， 如 图 12-7 所 示 。 


Log Level 


/ Set 


org.apache.hadoop.ipc| Get Log Level | 


Level: 


is Apache Hadoop release 1.0.4 


图 12-7 HBase H & 213] 28 HE 
3. 更 改 RPC 日 志 级 别 
点 击 “Get Log Level” 按 钮 ， 可 以 看 到 “org.apache.hadoop.ipc” ( 即 RPC) 的 日 志 级 别 是 INFO， 需 要 将 其 调整 为 DEBUG 才 能 生效 。 点 击 后 页 面 如 图 12-8 所 示 。 


在 第 二 行 第 一 个 文本 框 中 输入 “org.apache.hadoop.ipc”， 第 二 个 文本 框 中 输入 “DEBUG”， 点 击 “Set Log Level” 按 钮 。 设 置 后 结果 如 图 


12-9 所 示 。 至 此 ，RPC 


过 查看 RegionServer 的 日 志文 件 进行 验证 。 


日 志 设 置 已 经 生效 ， 当 然 ， 可 以 通 


Log Level 


Results 


Submitted Log Name: org. apache. hadoop- ipc 
Log Class: org. apache. commons. logging.impl.Log4]Logger 
Effective level: INFO 


Get / Set 


Log: | | | Get Log Level 


Lag: lorg apache hadoop ipc Level: [DEBUG Set Log Level 


This is Apaches Hadoop release 1.0.4 


12-8 获取 当前 RPC 日 志 级 别 


Log Level 


Results 


Submitted Log Name: org. apache. hadoop. ipce 

Log Class: org. apache. commons. logging. impl.Logd]Logger 
Submitted Level: DEBUG 

Setting Level to DEBUG .. 

Effective level: DEBUG 


Get / Set 


Log: |. | |Get Log Level | 


Log: | Level: 


This is Àpache Hadoop release 1.0.4 


12-9 设置 RPC 日 志 级 别 


12.272 ”调整 BlockCache 大 小 


参数 hfile.block.cache.size 用 于 RegionServer 查 询 相关 的 内 存 设置 ， 默 认 值 0.25， 也 就 是 读 缓存 占用 堆 内 存 大 小 百分比 ，0.25 表 示 2598。 该 值 将 直接 影响 数据 查询 操作 的 性 能 。 


RegionServer 的 堆 内 存 分 为 两 个 部 分 ， 一 部 分 作为 MemStore， 主 要 用 来 写 ; 另外 一 部 分 作为 BlockCache， 主 要 用 于 读 。 写 请 求 会 先 写 入 MemStore，RegionServer 会 给 每 个 Region 提 供 一 个 
MemStore， 当 MemsStore 满 128MB 以 后 ， 会 启动 flush 刷 新 到 磁盘 。 当 MemStore 的 总 大 小 超过 限制 时 (heapsizexhbase.regionserver.global.memstore.upperLimitx0.9) ， 会 强行 启动 flush 进 程 ， 从 
最 大 的 MemStore 开 始 flush 直 到 低 于 限制 。 


读 请 求 先 到 MemStore 中 查 数 据 ， 查 不 到 就 到 BlockCache 中 查 ， 再 查 不 到 就 会 到 磁盘 上 读 ， 并 把 读 的 结果 放 入 BlockCache。 由 于 BlockCache 采 用 的 是 LRU 策 略 ， 因 此 BlockCache 达 到 上 限 
(heapsizexhfile.block.cache.sizex0.85) 后 ， 会 启动 淘汰 机 制 ， 淘 汰 掉 最 老 的 一 批 数据 。 


- BlockCache 和 MemStore 占 比 总 和 不 能 超过 堆 内 存 的 80%。 
“ 以 读 为 主 的 业务 多 ， 则 调 大 该 值 ( 调 到 0.4 是 可 以 的 ) ; AZ, 使 用 默认 配置 即 可 。 


- 不 要 关闭 BlockCache (hbase.block.cache.size 设 置 为 0) ， 因 为 RegionServer 会 花 很 多 时 间 不 停 加 载 HFile 索 引 ， 增 大 磁盘 I/O 开 销 。 


12.7.3 ”设置 MemStore 的 上 下 限 


1.Memstore 上 限 


参数 hbase.regionserver.global.memstore.upperLimit 表 示 RegionServer 上 所 有 Region 的 MemStore 的 大 小 的 上 限 ， 默 认 值 是 0.4， 即 当 某 个 RegionServer 上 所 有 Region 的 MemStore 的 大 小 达到 
40% 时 ， 触 发 全 局 flush 操 作 。 不 同 之 处 是 ，hbase.hregion.memstore.flush.size 参 数 用 于 当 单 个 Region 内 所 有 的 MemStore 大 小 总 和 超过 指定 值 时 ， 触 发 flush 操 作 。 


这 个 参数 的 作用 是 防止 RegionServer 内 存 占用 过 大 ， 避 免 出 现 OOM 异 常 。 该 上 限 参 数 的 调整 需要 结合 BlockCache 占 比 ， 两 者 之 和 不 能 超过 80%。 在 以 读 为 主 的 集群 中 ， 可 以 调 小 该 值 ， 增 大 
BlockCache。 在 以 写 为 主 的 集群 中 ， 可 以 适当 调 大 该 值 ，BlockCache 可 以 保持 默认 值 或 适当 调 小 。 


2.Memstore 下 限 


参数 hbase.regionserver.global.memstore.lowerLimit 表 示 RegionServer 上 所 有 Region 的 MemStore 的 大 小 的 下 限 ， 默 认 值 是 0.35， 即 当 某 个 RegionServer 上 所 有 Region 的 MemStore 的 大 小 达到 
35% 时 ， 并 不 触发 全 局 flush 操 作 ， 而 是 寻找 一 个 MemStore 占 用 最 大 的 Region 进 行 flush 操 作 ， 此 时 写 操作 被 阻塞 。 下 限 是 所 有 Region 强 制 flush 导 致 性 能 降低 前 的 补救 措施 。 


该 参数 的 值 不 能 大 于 上 限 值 ， 两 者 是 同时 增 大 或 者 减 小 例如， 如果 将 上 限 值 设置 为 0.35， 那 个 下 限 也 相对 调整 为 0.3。 建 议 调整 该 值 后 ， 一 定 要 进行 压 测 实验 ,确保 触发 次 数 不 要 太 多 。 


12.7.4 ”调整 影响 合并 的 文件 数 


当 flush 操 作 发 生 时 ， 如 果 一 个 Region 中 的 Store ( 列 族 ) 内 有 超过 N 个 StoreFile， 则 阻塞 所 有 的 写 请 求 进行 合并 操作 ， 以 减少 StoreFile 的 数量 。 参 数 hbase.hstore.blockingStoreFiles 用 于 控制 其 中 的 
N， 默 认 值 是 7， 也 就 是 超过 7 个 StoreFile 触 发 合并 操作 。 


阻塞 写 请 求 会 严重 影响 当前 RegionServer 的 响应 时 间 ， 但 过 多 的 StoreFile 也 会 影响 读 性 能 。 理 论 上 ， 为 了 获取 较 平 滑 的 响应 时 间 ， 可 将 值 设 为 无 限 大 。 如 果 能 容忍 响应 时 间 出 现 较 大 的 浮动 ， 那 么 默认 
或 根据 自身 场景 调整 即 可 。 


12.7.5 ”调整 MemStore 的 flush 因 子 


当 某 Region 的 Memstore 占 用 内 存 大 小 超过 hbase.hregion.memstore.flush.size 倍 数 时 ， 阻 塞 该 Region 的 所 有 请 求 ， 触 发 flush 操 作 ， 释 放 内 存 。hbase.hregion.memstore.flush.size 参 数 的 默认 值 
是 2。 


虽然 设置 了 Region 所 占用 的 MemsStore 总 内 存 大 小 ， 比 如 64MB， 但 是 ， 假 设 在 最 后 63.9MB 时 ， 客 户 端 突然 一 次 写 入 200MB 的 数据 ， 此 时 MemStore 的 大 小 会 瞬间 暴 长 到 超过 预期 
hbase.hregion.memstore.flush.size 的 几 倍 。 所 以 ， 该 因子 参数 的 作用 是 及 时 遏制 风险 进一步 扩大 。 


如 果 预 估 正 常 应 用 场景 不 会 出 现 突 发 写 入 或 写 入 量 可 控 ， 那么 保持 默认 值 即 可 。 如 果 存 在 写 入 量 经 常 暴 长 到 正常 的 几 倍 ， 那 么 应 该 调 大 该 参数 ， 并 且 预 留 更 多 内 存 ， 防 止 出 现 OOM 异 常 。 


12.7.6 ”调整 单个 文件 大 小 


参数 hbase.hregion.max.filesize 用 于 定义 单个 HStoreFile 的 大 小 ， 默 认 10737418240 (10GB) 。 当 单个 Region 文 件 大 小 超过 该 值 时 ， 会 触发 Split 操 作 ， 将 该 文件 分 裂 为 多 个 更 小 的 Region 文 件 。 


Region 比 较 小 时 ， 对 分 裂 和 合并 很 友好 ， 速 度 很 快 ， 内 存 占用 低 。 缺 点 是 分 裂 和 合并 操作 会 很 频繁 。 特 别 是 数量 较 多 的 小 Region 不 停 地 分 裂 和 合并 ， 会 导致 集群 响应 时 间 波 动 很 大 ， 并 且 Region 数 量 
太 多 会 给 管理 上 带 来 麻烦 。 


Region 比 较 大 时 ， 不 太 适 合 经 常 分 裂 和 合并 ， 因 为 做 一 次 分 裂 和 合并 会 耗费 较 长 时 间 的 停顿 ， 对 应 用 的 读 写 性 能 冲击 非常 大 。 如 果 应 用 场景 中 ， 某 个 时 间 点 的 访问 量 很 低 ， 可 以 在 此 时 进行 分 裂 和 合 
并 ， 既 能 顺利 完成 任务 ， 又 能 保证 绝 大 多 数 时 间 平 稳 的 读 写 性 能 。 


如 果 写 入 操作 非常 频繁 ， 可 以 适当 调 大 该 值 (例如 20GB) ， 或 者 直接 使 
理 成 本 增加 不 多 ， 比 较 适 用 于 在 线 实时 系统 。 


人 工控 制 分 裂 的 方式 ， 即 将 参数 设置 为 Java 中 整数 类 型 最 大 值 。 这 种 方式 在 灵活 性 和 稳定 性 上 比 起 自动 分 裂 要 高 很 多 ， 而 且 管 


1277 ”调整 ZooKeeper Session 的 有 效 时 长 


参数 zookeeper.session.timeout 用 于 定义 连接 ZooKeeper 的 Session 的 有 效 时 长 ， 这 个 默认 值 是 180 秒 。 这 意味 着 一 旦 某 个 RegionServer 宕 机 ，HMaster 至 少 需要 180 秒 才能 察觉 到 宕 机 ， 然 后 开始 恢 
复 。 或 者 客户 端 读 写 过 程 中 ， 如 果 服 务 端 不 能 提供 服务 ， 客 户 端 直到 180 秒 后 才能 觉察 到 。 


在 某 些 场景 中 ， 这 样 的 时 长 可 能 对 生产 线 业务 来 讲 不 能 容忍 ， 需 要 调整 这 个 值 。 在 调整 这 个 值 前 ， 需 要 统计 JVM 的 GC 时 长 ， 否 则 一 个 长 时 间 的 GC 操 作 就 可 能 导致 超时 。 一 般 情 况 下 ， 只 需要 关注 JVM 
的 GC 时 长 ， 该 时 长 可 以 通过 分 析 GC 的 输出 日 志 获得 。 在 12.3.4 节 中 已 经 介绍 了 如 何 设置 GC 的 日 志 输 出 。 


128 ”分布 式 协调 系统 ZooKeeper 优 化 


HBase 依 赖 ZooKeeper 进 行 消息 的 协调 通信 和 Failover 机 制 实现 。 集 群 中 所 有 的 节点 和 客户 端 都 必须 能 够 访问 ZooKeeper。 默 认 情况 下 ，HBase 使 用 自 带 ZooKeeper， 当 然 ， 也 可 以 自己 管理 一 个 
ZooKeeper 集 群 。 通 过 修改 hbase-env.sh 中 的 HBASE_MANAGES_ZK 属 性 切换 。 该 值 默认 是 true， 即 使 用 HBase 自 带 ZooKeeper。 


12.8.1 配置 ZooKeeper 节 点 数 


需要 运行 几 个 ZooKeeper 节 点 是 构建 HBase 集 群 所 需要 首先 面 对 的 问题 。 最 低 配 置 是 3 个 节点 ， 也 是 分 布 式 集群 能 够 正常 启动 的 最 低 配 置 。 在 进行 ZooKeeper 节 点 配置 的 时 候 有 一 些 基 本 原则 : 


“ 生产 环境 最 少 3 个 节点 。 

* ZooKeepbet 节 点 数量 需要 时 奇数 ， 例 如 3、5、7 等 。 
“节点 越 多 ， 可 靠 性 越 高 。 

“ 最 好 使 用 独立 磁盘 ， 确 保 高 性 能 。 


“ 若 负 载重 ， 不 要 将 ZooKeeper 和 RegionServer 部 署 在 同一 机 器 上 。 


在 上 面 介绍 的 基本 原则 中 ， 与 节点 数 相关 的 是 前 3 个 ， 部 署 生产 环境 机 器 需要 3 个 节点 ， 这 也 是 官方 推荐 的 最 低 配 置 。 当 然 如 果 条 件 允许 ， 最 好 配置 到 5 个 节点 ， 这 是 为 了 防止 其 中 一 个 ZooKeeper 节 点 


故障 而 导致 整个 zooKeeper 集 群 无 法 使 有 


系 。 


(随时 都 保证 集群 节点 数 是 奇数 ) 。 上 面 提 到 了 节点 越 多 ， 可 靠 性 越 高 ， 是 不 是 可 以 尽量 多 配置 ZooKeeper 节 点 ? 


答案 是 否定 的 。 一 个 原因 是 ZooKeeper 每 个 节点 必须 部 署 在 不 同 的 服务 器 上 ， 如 果 多 配置 ZooKeeper 就 需要 更 多 的 服务 器 ， 需 要 根据 实际 预算 数量 定义 ; 另 一 个 原因 是 可 靠 性 和 高 性 能 之 间 的 平衡 关 


一 般 讲 到 性 能 ， 可 以 从 两 个 方面 去 考虑 : 写 入 与 读 取 的 性 能 。 


系统 可 靠 性 的 提升 ， 一 定 会 伴随 着 性 能 的 下 降 。 所 以 ， 并 不 是 节点 越 多 越 好 ， 要 根 拉 


届 实 际 情况 定义 。 


由 于 ZooKeeper 的 写 入 首先 需要 通过 Leader， 然 后 这 个 写 入 的 消息 需要 传播 到 半数 以 上 的 Follower 通 过 才能 完成 整个 写 入 。 所 以 整个 集群 写 入 的 性 能 无 法 通过 增加 服务 器 的 数量 达到 目的 ， 相 反 ， 整 个 
集群 中 Follower 数 量 越 多 ， 整 个 集群 写 入 的 性 能 越 差 。 


ZooKeeper 集 群 中 的 每 一 台 服务 器 都 可 以 提供 数据 的 读 取 服 务 ， 所 以 整个 集群 中 服务 器 的 数量 越 多 ， 读 取 的 性 能 就 越 好 。 但 是 Follower 增 加 又 会 降低 整个 集群 的 写 入 性 能 。 为 了 避免 这 个 问题 ， 可 以 将 
ZooKeeper 集 群 中 部 分 服务 器 指定 为 Observer。 


12.82 ”独立 ZooKeeper 集 群 


等 都 是 提升 性 能 的 有 效 方法 。 


前 面 也 提 到 了 ， 可 以 使 用 HBase 自 带 ZooKeeper， 也 可 以 独立 安装 部 署 ZooKeeper， 它 们 之 间 并 多 少 
时 候 最 好 使 


况 ，HBase 集 群 的 角色 划分 如 图 12-10 所 示 。 


RegionServer Group1 


RegionServer Group2 


RS1-1 


129 ” 表 设 计 优 化 


RS2-1 


因此 ， 设 置 ZooKeeper 节 点 数量 还 需要 考虑 业务 的 量 级 ， 如 果 业 务 读 写 请 求 量 非常 大 。 假 设 HBase 集 群 资源 使 用 没有 达到 饱和 状态 ， 对 于 简单 情况 ， 可 以 按照 集群 的 物理 节点 数量 定义 ZooKeeper 节 点 
数 。 如 果 HBase 集 群 物理 节点 数 小 于 20 台 ， 一 般配 置 ZooKeeper 集 群 使 


因为 ZooKeeper 承 担 了 消息 通信 和 Failover 机 制 的 重要 角色 ， 所 以 必须 保证 ZooKeeper 的 可 靠 性 和 高 效 性 ， 前 面 内 容 提 到 的 基本 原则 也 涉及 了 这 方 


H] 


Zookeeper 


ZK1 


图 12-10 HBase 集 群生 产 环境 部 署 图 


表 的 设计 在 10.4 节 中 已 经 介绍 过 一 些 设计 要 点 的 内 容 ， 这 里 不 再 重 


讲述 前 


12.9.1 开启 布 隆 过 滤器 


的 内 容 。 使 用 独立 磁盘 、 与 RegionServer 分 开 部 署 


区 别 ， 建 议 直 接 使 用 HBase 自 带 的 ZooKeeper， 不 用 担心 兼容 性 和 稳定 性 的 问题 。 但 是 ， 在 部 署 的 
独立 的 物理 节点 ， 将 其 与 RegionServer 部 署 节 点 区 分 开 ， 这 样 可 以 防止 RegionServer 节 点 负载 过 高 影响 ZooKeeper 性 能 ， 并 且 这 样 更 低 的 耦合 度 便于 降低 集群 维护 的 复杂 度 。 按 照 这 种 情 


HMaster 


HMasteri 


HMaster2 


的 内 容 ， 本 节 将 着 重 介绍 块 大 小 、In Memory、TTL、 最 大 版 本 数 等 配置 的 设置 和 优化 。 


前 面 10.6 节 已 经 介绍 了 布 隆 过 滤器 的 原理 和 使 用 方法 ， 它 针对 每 列 族 单独 启用 ， 有 三 种 类 型 : NONE、ROW 和 ROWCOL。 默 认 值 是 NONE， 即 不 使 
时 将 被 添加 到 布 隆 过 滤器 ; ROWCOL 表 示 行 键 、 列 族 和 列 名 三 者 的 哈 希 将 在 每 次 插入 行 时 添加 到 布 隆 过 滤器 。 


启用 布 隆 过 滤器 可 以 节省 读 磁 盘 过 程 ， 可 以 有 助 于 降低 读 取 操作 的 延迟 。 所 以 ， 在 实际 应 
alter 的 方式 修改 表 结 构 。 但 是 ， 这 种 修改 对 于 之 前 的 数据 不 生效 ， 只 针对 修改 后 插入 的 数据 。 


12.9.2 ”调整 列 族 块 大 小 


Li 


过 程 中 ， 最 好 针对 经 常 经 常 发 生 读 取 操作 的 列 族 添 加 布 隆 过 滤器 。 针 对 生产 环境 已 经 存在 的 表 ， 可 以 使 


布 隆 过 滤器 ; ROW 表示 行 键 的 哈 希 在 每 次 插入 行 


HBase 数 据 存储 在 StoreFile 中 ，StoreFile 由 HFile 块 (Block) 组 成 ，HFile 块 是 HBase 从 StoreFile 中 读 取 数 据 时 的 最 小 数据 单位 。HFile 块 大 小 是 一 个 重要 的 调 优 参数 。 为 了 获得 更 好 的 访问 性 能 ， 需 要 


民 据 平均 键 值 对 规模 和 磁盘 IO 速度 的 不 同 来 选择 不 同 的 块 大 小 。 该 


65536B (64KB， 默 认 值 ) 。 


hbase (main) : 002: 0» describe 'test3' 
DESCRIPTION 


'test3', (NAME => 'cfl', DATA BLOCK ENCODING => 'NONE', 
ILTER => 'NONE', REPLICATION SCOPE => '0', VERSIONS => '3', 


属性 作 


ENABLED 


BLOOMF true 


[v6] 


在 列 族 级 别 。 下 面 的 代码 是 表 test3 结 构 的 输出 信息 ， 其 中 对 于 列 族 cf1 和 cf2 来 讲 ， 块 大 小 (BLOCKSIZE 属 性 ) 都 是 


MPRESSION => 'NONE', MIN VERSIONS => '0', TTL => '2147483647', 
KEEP DELETED CELLS => 'false', BLOCKSIZE —» '65536', IN MEMOR 
Y => "false', ENCODE ON DISK => 'true', BlockCache => 'true'], 
(NAME => 'cf2', DATA BLOCK ENCODING => 'NONE', BLOOMFILTER => 
'NONE', REPLICATION SCOPE => '0', VERSIONS => '3', COMPRESSIO 
N => 'NONE', MIN VERSIONS => '0', TTL => '2147483647', KEEP DE 
LETED CELLS => 'false', BLOCKSIZE => '65536', IN MEMORY => 'fa 
lse', ENCODE ON DISK => 'true', BlockCache => 'true'] 

1 row (s) in 2.4630 seconds 


接 下 来 ， 通 过 HFile 工 具 查 看 现在 test3 表 的 HFile 文 件 中 的 平均 键 值 对 规模 。 然 后 根据 键 值 对 规模 修改 列 族 的 块 大 小 。 


首先 ,不同 列 族 的 HFile 存 储 在 HDFS 上 与 列 族 名 相对 应 的 路 径 下 。 列 族 cf1 存 储 在 ${hbase.rootdir}/test3/459cafca3e58e43f09f2f56e2cb25085/cf1/d8933494531245dcbb85da6050f477ae 目 录 下 。 


使 用 下 面 的 命令 查看 平均 键 值 对 规模 : 


${HBASE HOME}/bin/hbase org.apache.hadoop.hbase.io.hfile.HFile -m -f /hbase/test3/ 
459cafca3e58e43£09£2£56e2cb25085/cf1/48933494531245dcbb85da6050£477ae 


执行 后 会 得 到 下 面 的 统计 输出 信息 : 


Block index size as Per heapsize: 968 
reader-/hbase/test3/459cafca3e58e43f09f2f56e2cb25085/cf1/88933494531245dcbb85da6050£477ae, 
compression-lzo, -cacheConf-CacheConfig: enabled [cacheDataOnRead-true] 
[cacheDataOnWrite-false] [cacheIndexesOnWrite-false] [cacheBloomsOnWrite-false] 
[cacheEvictOnClose-false] [cacheCompressed-false], 
firstKey-/cfl: Hmovt/1386319296129/Put, 
lastKey-(FFFFF345-B800-9BC2-8545-B7C8FDIBF34B)/cfl: HFAV 240025/1386748624220/Put, 
avgKeyLen-61, ul 
avgValueLen-16, 
entries-6437727, 
length-193137196 
Trailer: 
fileinfoOffset-193135343, 
loadOnOpenDataOffset-193134897, 
dataIndexCount-6, 
metaIndexCount-0, 
totalUncomressedBytes-562513429, 
entryCount-6437727, 
compressionCodec-LZO, 
uncompressedDataIndexSize-665424, 
numDataIndexLevels-2, 
firstDataBlockOffset-0, 
lastDataBlockOffset-193108578, 
comparatorClassName-org.apache.hadoop.hbase.KeyValue$KeyComparator, 
majorVersion-2, 
minorVersion-0 
Fileinfo: 
BLOOM FILTER TYPE = ROW 
DATA BLOCK ENCODING = NONE 
DELETE FAMILY COUNT = \x00\x00\x00\x00\x00\x00\x00\x00 
EARLIEST PUT TS = \x00\x00\x01B\xC1\xB1; 
LAST BLOOM KEY = (FFFFF345-B800-9BC2-8545-B7C8FD1BF34B] 
MAJOR COMPACTION KEY = \xFF 
MAX SEQ ID KEY = 6583539 
TIMERANGE = 1386229087008http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text./ . . 1389082006364 
hfile.AVG KEY LEN = 61 
hfile.AVG VALUE LEN = 16 
hfile.LASTKEY = Xx00&(FFFFF345-B800-9BC2-8545-B7C8FD1BEF34B) \x04cf1HFAV 
240025\x00\x00\x01B\xE0\xA8\xBD\x5C\x04 $ 
Mid-key: \x00&{78F1695A-DA58-EAD5-EF7D-910AFC872501}\x04cflHmovt\x00\x00\x01B\ 
XDF\xA4\xEA4\xF1\x04\x00\x00\x00\x00\x05\x94\xF6\xAA\x00\x00T\xA7 
Bloom filter: 
BloomSize: 3293184 
No of Keys in bloom: 2739880 
Max Keys for bloom 2746313 
Percentage filled: 100% 
Number of chunks: 26 
Comparator: ByteArrayComparator 
Delete Family Bloom filter: 
Not present 


从 上 面 的 输出 信息 中 可 以 看 出 ， 该 HFile 的 平均 键 值 规模 非常 小 (61B+16B=77B) 。 对 于 平均 键 值 规模 非常 小 的 情况 (例如 小 于 100B) ， 应 该 使 用 小 数据 块 (例如 8KB) ， 避 免 每 个 数据 块 存 储 的 键 值 


对 过 多 。 块 内 键 值 对 过 多 会 增 大 块 内 寻 址 的 延迟 时 间 ， 因 为 块 内 寻 址 操作 每 次 都 要 从 块 中 的 第 一 个 键 值 对 开始 顺序 查找 。 


反 ， 如 果 平 均 键 值 对 规模 很 大 ， 或 者 磁盘 速度 慢 造 成 了 性 能 瓶颈 ， 那 么 就 应 该 选择 一 个 较 大 的 块 大 小 ， 以 便 使 一 次 磁盘 IO 能 够 读 取 更 多 的 数据 。 修 改 的 代码 如 下 : 


其 次 ,修改 列 族 cf1 的 块 大 小 ， 设 置 为 8192B (8KB) ， 这 是 一 个 远 小 于 默认 值 64KB 的 块 大 小 。 这 里 选择 较 小 的 块 大 小 的 目的 是 使 随机 读 取 更 快 ， 而 付出 的 代价 是 块 索引 变 大 ， 会 消耗 更 多 的 内 存 。 相 


hbase (main) : 004: 0» disable 'test3' 

0 row (s) in 0.2400 seconds 

hbase (main) : 005: 0» alter 'test3', (NAME-»'cfl', BLOCKSIZE-»'8192'] 

Updating all regions with the new schemahttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 

5/5 regions updated. B 

Done. 

0 row (s) in 3.4020 seconds 

hbase (main) : 006: 0» enable 'test3' 

0 row (s) in 3.3800 seconds 

hbase (main) : 007: 0» discribe 'test3' 

DESCRIPTION ENABLED 
'test3', (NAME => 'cfl', DATA BLOCK ENCODING => 'NONE', BLOOMF true 
ILTER => 'NONE', REPLICATION SCOPE => '0', VERSIONS => '3', CO 
MPRESSION => 'NONE', MIN VERSIONS => '0', TTL => '2147483647', 

KEEP DELETED CELLS => 'false', BLOCKSIZE => '8192', IN MEMORY 
=> 'false', ENCODE ON DISK => 'true', BlockCache => 'true'], 
(NAME => 'cf2', DATA BIOCK ENCODING => 'NONE', BLOOMFILTER => 
'NONE', REPLICATION SCOPE => '0', VERSIONS => '3', COMPRESSION 
=> 'NONE', MIN VERSIONS => '0', TTL => '2147483647', KEEP DEL 

ETED CELLS => 'false', BLOCKSIZE => '65536', IN MEMORY => 'fal 
se', ENCODE ON DISK => 'true', BlockCache => 'true') 

1 row (s) in 0.1160 seconds 


12.9.3 设置 In Memory 属 性 


HBase RegionServer 的 BlockCache 包 含 三 个 级 别 的 优先 级 队列 : 
` Single: 如 果 一 个 Block 第 一 次 被 访问 ， 则 放 在 这 一 级 队列 中 ; 
: Multi: 如 果 一 个 Block 被 多 次 访问 ， 则 从 Single 队 列 移 到 Multi 队 列 中 ; 


: In Memory: 如 果 一 个 Block 是 In Memory 的 ， 则 放 到 该 队列 中 。 


可 见 BlockCache 实 现 机 制 的 核心 思想 是 缓存 分 级 ， 避 免 缓 存 之 间 的 相互 影响 ， 尤 其 是 .META. 表 这 样 的 缓存 应 该 保证 高 优先 级 。LRU 淘 汰 数据 时 ，Single 会 优先 淘汰 ， 其 次 为 Multi， 最 后 为 In 
Memory。 这 三 个 队列 分 别 占 用 BlockCache 的 25%、50% 和 25%。 


列 族 In Memory 属 性 用 于 BlockCache 缓 存 队列 的 In Memory 队 列 设置 。 该 属性 作用 于 单个 列 族 ， 默 认 值 是 false。 当 In Memory 属 性 在 默认 情况 (false) 时 ， 第 一 次 访问 到 该 数据 ， 会 将 数据 写 入 
Single 队 列 ， 当 再 次 访问 该 数据 并 且 在 Single 中 读 到 该 数据 时 ，Single 会 升级 为 Multi。 设 置 为 true 时 直接 写 入 In Memory 队 列 。 这 三 个 队列 其 实 是 在 共用 BlockCache 的 资源 。 


从 上 面 BlockCache 缓 存 的 级 别 划分 可 以 看 到 ， 当 某 些 列 族 特别 重要 或 者 访问 特别 频繁 时 ， 可 以 将 其 In Memory 属 性 设 为 true， 单 独 使 用 一 个 缓存 队列 ， 保 证 缓存 的 优先 使 用 。 但 是 如 果 将 数据 量 非常 
大 的 用 户 表 的 所 有 列 族 设置 In Memory 为 true， 可 能 会 导致 内 存 溢出 的 问题 ， 对 整个 集群 的 性 能 产生 影响 。 


In Memory 属 性 可 以 在 建 表 的 时 候 指定 ， 也 可 以 使 用 alter 命 令 修改 已 经 存在 的 表 ， 该 属性 的 修改 操作 如 下 : 


// 创 建 表 test4， 将 列 族 cf1 的 In Memory 属 性 设置 为 true 
hbase (main) : 012: 0» create 'test4', { NAME => 'cf1', IN MEMORY-»'true' }, { NAME => 'cf2'] 
0 row (s) in 1.1990 seconds 
hbase (main) : 015: 0» describe 'test4" 
DESCRIPTION ENABLED 
'test4', (NAME => 'cfl', DATA BLOCK ENCODING => 'NONE', BLOOMF true 
ILTER => 'NONE', REPLICATION SCOPE => '0', VERSIONS => '3', CO 
MPRESSION => 'NONE', MIN VERSIONS => '0', TTL => '2147483647', 

KEEP DELETED CELLS => 'false', BLOCKSIZE => '65536', IN MEMORY 

=> 'true', ENCODE ON DISK => 'true', BlockCache => 'true"], 

(NAME => 'cf2', DATA BLOCK ENCODING => 'NONE', BLOOMFILTER => 

'NONE', REPLICATION SCOPE => '0', VERSIONS => '3', COMPRESSION 

=> 'NONE', MIN VERSIONS => '0', TTL => '2147483647', KEEP DEL 

ETED CELLS => 'false', BLOCKSIZE => '65536', IN MEMORY => 'fal 

se', ENCODE ON DISK => 'true', BlockCache => 'true') 
1 row (s) in 0.2300 seconds 
// 修 改 列 族 cf2 的 In Memory 属 性 为 true 
hbase (main) : 019: 0» disable 'test4' 
0 row (s) in 2.1820 seconds 
hbase (main) : 020: 0» alter 'test4', { NAME => 'cf2', IN MEMORY-»'true' } 
Updating all regions with the new schemahttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
1/1 regions updated. B 
Done. 
0 row (s) in 1.2070 seconds 
hbase (main) : 021: 0» enable 'test4' 
0 row (s) in 3.7420 seconds 
hbase (main) : 023: 0» describe 'test4' 
DESCRIPTION ENABLED 
'test4', (NAME => 'cfl', DATA BLOCK ENCODING => 'NONE'. BLOOMF true 
ILTER => 'NONE',. REPLICATION SCOPE => '0', VERSIONS => '3', CO 
MPRESSION => 'NONE', MIN VERSIONS => '0', TTL => '2147483647', 

KEEP DELETED CELLS => 'false', BLOCKSIZE => '65536', IN MEMORY 

=> 'true', ENCODE ON DISK => 'true', BlockCache => 'true"], 

(NAME => 'cf2', DATA BLOCK ENCODING => 'NONE', BLOOMFILTER => 

'NONE', REPLICATION SCOPE => '0', VERSIONS => '3', COMPRESSION 

=> 'NONE', MIN VERSIONS => '0', TTL => '2147483647', KEEP DEL 

ETED CELLS => 'false', BLOCKSIZE => '65536', IN MEMORY => 'tru 

e', ENCODE ON DISK => 'true', BlockCache => 'true'] 
1 row (s) in 0.2280 seconds 


12.9.4. 调整 列 族 最 大 版 本 数 


最 大 版 本 数 也 是 列 族 级 别 的 一 个 属性 ， 用 于 定义 某 列 族 所 能 记录 的 最 多 的 版 本 数量 ， 属 性 名 称 是 VERSIONS， 默 认 值 是 3， 也 就 是 在 默认 情况 下 ， 每 个 单元 格 的 最 大 版 本 数量 是 3。 对 于 更 新 比较 频繁 的 
应 用 ， 该 值 基本 能 满足 需求 。 如 果 更 新 非常 频繁 的 应 用 ， 可 以 设置 为 1， 这 样 可 以 快速 淘汰 无 用 数据 ， 节 省 存储 空间 同时 还 能 提升 查询 效率 。 


不 少 应 用 需要 存储 所 有 的 版 本 数量 ， 当 然 ， 这 与 表 结 构 设 计 有 非常 大 的 关系 ， 这 种 情况 下 需要 将 该 属性 的 值 设 置 为 Java 中 Integer 类 型 的 最 大 值 (2147483647) 。 


该 属性 的 设置 与 In Memory 属 性 相同 ， 分 为 创建 表 和 已 经 创建 的 表 两 种 方式 ， 详 细 的 操作 命令 如 下 : 


// 创 建 表 test5， 设 置 列 族 cf1 最 大 版 本 数 为 '2147483647' 

hbase (main) : 024: 0> create 'test5', { NAME => 'cfl', VERSIONS=>'2147483647' ), { NAME => 'cf2'} 

0 row (s) in 1.3700 seconds 

hbase (main) : 025: 0» DES 

NameError: uninitialized constant DES 

hbase (main) : 026: 0» describe 'test5' 

DESCRIPTION ENABLED 
'test5', (NAME => 'cfl', DATA BLOCK ENCODING => 'NONE'. BLOOMF true 
ILTER => 'NONE', REPLICATION SCOPE => '0', VERSIONS => '214748 
3647', COMPRESSION => 'NONE'. MIN VERSIONS => '0', TTL => '214 
7483647', KEEP DELETED CELLS => 'false', BLOCKSIZE => '65536', 

IN MEMORY => 'false', ENCODE ON DISK => 'true', BlockCache => 
'true'), (NAME => 'cf2', DATA BLOCK ENCODING => 'NONE', BLOOM 
FILTER -» 'NONE', REPLICATION SCOPE => '0', VERSIONS => '3', C 
OMPRESSION => 'NONE', MIN VERSIONS => '0', TTL => '2147483647' 
; KEEP DELETED CELLS => 'false', BLOCKSIZE => '65536', IN MEMO 
RY => 'false', ENCODE ON DISK => 'true', BlockCache => 'true') 

1 row (s) in 0.1780 seconds 

// 使 用 alter 修 改 列 族 cf2 的 版 本 数 为 '2147483647' 

hbase (main) : 027: 0» disable 'test5' 

0 row (s) in 2.1290 seconds 

hbase (main) : 028: 0» alter 'test5', { NAME => 'cf2', VERSIONS-»'2147483647' } 

Updating all regions with the new schemahttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 

1/1 regions updated. 

Done. 

0 row (s) in 1.3080 seconds 

hbase (main) : 029: 0» enable 'test5' 

des0 row (s) in 3.2120 seconds 

hbase (main) : 030: 0» describe 'test5' 

DESCRIPTION ENABLED 
'test5', (NAME => 'cfl', DATA BLOCK ENCODING => 'NONE' BLOOMF true 
ILTER => 'NONE', REPLICATION SCOPE => '0', VERSIONS => '214748 
3647', COMPRESSION => 'NONE'. MIN VERSIONS => '0', TTL => '214 
7483647', KEEP DELETED CELLS => 'false', BLOCKSIZE => '65536', 

IN MEMORY => 'false', ENCODE ON DISK => 'true', BlockCache => 
'true'), {NAME => 'cf2', DATA BLOCK ENCODING => 'NONE', BLOOM 
FILTER => 'NONE', REPLICATION SCOPE => '0', VERSIONS => '21474 
83647', COMPRESSION => 'NONE', MIN VERSIONS => '0', TTL => '21 
47483647', KEEP DELETED CELLS => 'false', BLOCKSIZE => '65536' 
; IN MEMORY => 'false', ENCODE ON DISK => 'true', BlockCache = 
> 'true'] uw 

1 row (s) in 0.1430 seconds 


12.9.5 ”设置 TTL 属 性 


TTL (Time To Live) 也 是 列 族 级 别 的 属性 ， 用 于 定义 列 族 中 单元 格 存活 的 时 间 ， 过 期 数据 将 自动 被 删除 。TTL 属 性 有 下 面 的 特性 : 


“ 单位 是 秒 ， 默 认 值 是 Java 中 Integer 类 型 的 最 大 值 ， 即 2147483647。 
o 当 一 个 行 键 的 所 有 列 都 失效 后 ， 该 行 键 也 会 被 删除 。 


“ 假如 将 TTL 设 置 为 两 个 月 ， 那 么 时 间 鹤 在 两 个 月 之 前 的 数据 将 不 能 插入 HBase。 


该 属性 的 设置 与 In Memory、 最 大 版 本 数 属性 相同 ， 分 为 创建 表 和 已 经 创建 的 表 两 种 方式 ， 详 细 的 操作 命令 如 下 : 


// 创 建 表 test6， 设 置 列 族 cf1 的 TTI 为 1000 


hbase (main) : 031: 0» create 'test6', { NAME => 'cfl', TTL=>'1000' }, 


0 row (s) in 3.3190 seconds 

hbase (main) : 032: 0» describe 'test6' 

DESCRIPTION ENABLED 
'test6', (NAME => 'cfl', DATA BLOCK ENCODING => 'NONE', BLOOMF true 
ILTER => 'NONE', REPLICATION SCOPE => '0', VERSIONS => '3', CO 
MPRESSION => 'NONE', MIN VERSIONS => '0', TTL => '1000', KEEP 
DELETED CELLS => 'false', BLOCKSIZE => '65536', IN MEMORY => r 
false', ENCODE ON DISK => 'true', BlockCache => 'true'}, {NAME 

=> 'cf2', DATA BLOCK ENCODING => 'NONE', BLOOMFILTER => 'NONE 
um REPLICATION SCOPE => '0', VERSIONS => '3', COMPRESSION => ' 
NONE', MIN VERSIONS => '0', TTL => '2147483647', KEEP DELETED 


CELLS => 'false', BLOCKSIZE => '65536', IN MEMORY => 'false', 
ENCODE ON DISK => 'true', BlockCache => 'true') 

1 row (s) in 0.2110 seconds 
// 修 改 列 族 cf2 的 TTI 为 1000 

hbase (main) : 033: 0> disable 
0 row (s) in 2.1200 seconds 
hbase (main) : 034: 0> alter 'test6', 


'test6' 


{ NAME => 'cf2', TTL-2'1000' } 


( NAME => 'cf2'] 


Updating all regions with the new schemahttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 


1/1 regions updated. 


Done. 

0 row (s) in 1.3640 seconds 

hbase (main) : 035: 0» enable 'test6' 

0 row (s) in 3.5860 seconds 

hbase (main) : 036: 0» describe 'test6' 

DESCRIPTION ENABLED 
'test6', (NAME => 'cfl', DATA BLOCK ENCODING => 'NONE'. BLOOMF true 
ILTER => 'NONE', REPLICATION SCOPE => '0', VERSIONS => '3', CO 
MPRESSION => 'NONE', MIN VERSIONS => '0', TTL => '1000', KEEP 
DELETED CELLS => 'false', BLOCKSIZE => '65536', IN MEMORY => f 
false', ENCODE ON DISK => 'true', BlockCache => 'true'), {NAME 


=> 'cf2', DATA BLOCK ENCODING => 'NONE', BLOOMFILTER => 'NONE 
', REPLICATION SCOPE '0', VERSIONS => '3', COMPRESSION => ' 
NONE', MIN VERSIONS ; TTL -» '1000', KEEP DELETED CELLS 


=> 'false', BLOCKSIZE => '65536', IN MEMORY 
.ON DISK => 'true', BlockCache => 'true'] 
1 row (s) in 2.1940 seconds 


=> 'false', ENCODE 


1210 ”其 他 优化 


12.10.1 


关闭 MapReduce 的 预测 执行 功能 


预测 执行 (Speculative Execution) 是 MapReduce 任 务 的 一 种 优化 执行 机 制 : 在 所 有 Task 都 开始 运行 之 后 ，JobTracker 会 统计 所 有 任务 的 平均 进度 ， 如 果 某 个 Task 所 在 的 TaskTracker 机 器 配置 比较 
低 或 者 CPU 负载 很 高 ， 导 致 任务 执行 比 总 体 任 务 的 平均 执行 要 慢 ， 此 时 JobTracker 会 启动 一 个 新 的 Task (Duplicate Task) ， 新 旧 Task 计 算 内 容 和 数据 完全 相同 ， 哪 个 先 执行 完 就 把 另外 一 个 杀 掉 ， 执 行 完 


的 Task 作 为 最 终 Job 的 一 个 局 部 结果 。 


该 机 制 默认 是 打开 的 。 但 是 对 于 使 
集群 的 正常 运行 。 所 以 ， 在 使 
可 关闭 预测 执行 。 下 面 的 示例 代码 展示 了 


MapReduce 访 问 HBase 集 群 ， 这 种 机 制 明显 存在 问题 。 因 为 预测 执行 的 


如 何 关闭 MapReduce 的 预测 执行 机 制 。 


public static final String HADOOP MAP SPECULATIVE EXECUTION = "mapred.map.tasks. 


speculative.execution"; 


public static final String HADOOP REDUCE SPECULATIVE EXECUTION = "mapred.reduce. 


j= 


会 使 得 连接 HBase 的 客户 端 数量 成 倍增 加 ， 占 ， 


和 运行， 


tasks.speculative.execution"; 
Configuration conf - HBaseConfiguration.create () ; 
Scan scan = new Scan () ; 
/* batch and caching */ 
scan.setBatch (0) ; 
scan.setCaching (10000) ; 
scan.setMaxVersions (1) ; 
/* configure scan */ 
scan.addColumn (Bytes.toBytes ("attr") , 
scan.addColumn (Bytes.toBytes ("attr") , 
// hbase master 
conf.set (ConfigProperties.CONFIG NAME HBASE MASTER, 
config.getProperty (ConfigProperties.CONFIG NAME HBASE MASTER) ) ; 
// zookeeper quorum 
conf.set ( 
ConfigProperties.CONFIG NAME HBASE ZOOKEEPER QUORUM, 
config.getProperty (ConfigProperties.CONFIG NAME HBASE ZOOKEEPER QUORUM) ) ; 
// set hadoop speculative execution to false n T Bi 
conf.setBoolean (HADOOP MAP SPECULATIVE EXECUTION, false) ; 
conf.setBoolean (HADOOP REDUCE SPECULATIVE EXECUTION, false); 
Path tempIndexPath = new Path (TEMP INDEX PATED ; 
FileSystem fs = FileSystem.get (conf); 7 
if (fs.exists (tempIndexPath) ) { 

fs.delete (tempIndexPath, true): 


Bytes.toBytes ("gender") ) ; 
Bytes.toBytes ("age") ) ; 


l 

/* JOB-l: generate secondary index */ 

Job job = new Job (conf, NAME) ; 

job.setJarByClass (Main.class) ; 
TableMapReduceUtil.initTableMapperJob (inputTable, 
UidGenderAgeMapper.class, Text.class, Text.class， 
job.setNumReduceTasks (0) ; 
job.setOutputFormatClass (TextOutputFormat.class) ; 
FileOutputFormat.setOutputPath (job, tempIndexPath) ; 
int success - job.waitForCompletion (true) ? 0: 1 


scan, 


job): 


大 量 连接 资源 ， 严 重 时 可 能 影响 整个 
MapReduce 访 问 HBase 的 时 候 ， 需 要 将 预测 执行 机 制 关闭 。 设 置 mapred.map.tasks.speculative.execution 和 mapred.reduce.tasks.speculative.execution 属 性 为 false 即 


12.10.2 ”修改 负载 均衡 执行 周期 


前 面 10.7 节 已 经 介绍 过 HBase 集 群 负载 均衡 的 算法 和 使 用 方法 。 全 局 负载 均衡 每 5 分 钟 执行 一 次 ， 
当 集群 写 入 操作 非常 频繁 时 ， 可 以 将 该 值 调 小 〈 例 如 3 分 钟 ) ; 当 集 群 写 入 操作 非常 稀疏 时 ， 可 以 将 该 值 调 大 (例如 10 分 钟 ) ， 这 样 能 够 有 效 地 、 合 理 地 利 


12.11 ”性 能 测试 
Yahoo! 开源 的 YCSB 工 具 可 对 HBase 集 群 进行 基准 性 能 测试 。 本 节 将 介绍 如 何 使 用 YCSB 对 HBase 进 行 全 方 
绍 。 


YCSB 能 够 对 以 下 性 能 


“ 集群 的 总 体 知 吐 量 (每 秒 的 操作 数 


系统 资源 。 


测试 。 对 于 YCSB 的 编译 、 安 装 的 内 容 这 里 不 做 详 述 ， 


征 进 行 基准 测试 : 


) 。 


感 兴 


新 分 配 整个 集群 的 Region， 通 过 hbase.balancer.period 进 行 设 置 。 一 般 情 况 下 并 不 需要 修改 该 值 ， 


趣 的 读者 可 以 参考 附录 C 中 的 介 


“ 集群 的 平均 延迟 时 间 (每 个 操作 的 平均 时 间 ) 。 


“ 最 小 延迟 。 


“最 大 延迟 。 


“ 操作 延迟 的 分 布 情况 。 


1. 为 YCSB 配 置 HBase 环 境 


将 需要 压力 测试 的 HBase 集 群 的 (HBASE_HOMEj/conf/hbase-site.xml 文 件 复制 到 YCSB 主 目录 下 的 hbase/src/main/conf 目 录 中 。 然 后 ， 进 入 HBase 模 块 的 目录 ， 执 行 导 


// 配 置 文件 

cd YCSB-master 

rm hbase/src/main/conf/hbase-site.xml 

mv S$(HBASE HOME]/conf/hbase-site.xml hbase/src/main/conf/ 
// 重 新 编译 YCSB 

cd hbase 

mvn clean install 


2. 在 HBase 中 创建 测试 表 


进入 HBase Shell 命 令 行 模式 ， 创 建 表 usertable， 命 令 如 下 : 


hbase (main) : 002: 0> create 'usertable', {NAME => 'f1', VERSIONS => '1', COMPRESSION => 'LZO'] 
0 row (s) in 3.5990 seconds 


3. 写 密集 基准 测试 


YCSB 命 令 行 参数 有 3 类 ， 支 持 十 几 种 数据 库 ， 命 令 行 参数 的 详细 信息 如 下 : 


Usage: bin/ycsb command database [options] 


Commands: 
load Execute the load phase 
run Execute the transaction phase 
shell Interactive mode 
Databases: 
basic : //github.com/brianfrankcooper/YCSB/tree/master/basic 


/ /github.com/brianfrankcooper/YCSB/tree/master/cassandra 
/ /github.com/brianfrankcooper/YCSB/tree/master/cassandra 
/ /github.com/brianfrankcooper/YCSB/tree/master/cassandra 


cassandra-10 
cassandra-7 
cassandra-8 


dynamodb : //github.com/brianfrankcooper/YCSB/tree/master/dynamodb 
elasticsearch : //github.com/brianfrankcooper/YCSB/tree/master/elasticsearch 
gemfire / /github.com/brianfrankcooper/YCSB/tree/master/gemfire 
hbase : //github.com/brianfrankcooper/YCSB/tree/master/hbase 
hypertable : //github.com/brianfrankcooper/YCSB/tree/master/hypertable 
infinispan : //github.com/brianfrankcooper/YCSB/tree/master/infinispan 
jdbc / /github.com/brianfrankcooper/YCSB/tree/master/jdbc 
mapkeeper / /github.com/brianfrankcooper/YCSB/tree/master/mapkeeper 
mongodb / /github.com/brianfrankcooper/YCSB/tree/master/mongodb 
nosqldb / /github.com/brianfrankcooper/YCSB/tree/master/nosqldb 
orientdb / /github.com/brianfrankcooper/YCSB/tree/master/orientdb 
redis / /github.com/brianfrankcooper/YCSB/tree/master/redis 
voldemort : //github.com/brianfrankcooper/YCSB/tree/master/voldemort 
Options: 
-P file Specify workload file 
-p key-value Override workload property 
-s Print status to stderr 
-target n Target ops/sec (default: unthrottled) 


-threads n Number of client threads (default: 1) 

Workload Files: 
There are various predefined workloads under workloads/ directory. 
See https: //github.com/brianfrankcooper/YCSB/wiki/Core-Properties 
for the list of workload properties 


其 中 ，load 命 令 是 加 载 已 经 实现 的 脚本 ， 在 写 密集 基准 测试 中 将 会 使 用 该 命令 ， 直 接 加 载 workload 脚 本 ， 写 密集 操作 命令 如 下 : 


bin/ycsb load hbase -P workloads/workloada -p columnfamily-fl -p recordcount- 
1000000 -p threadcount-4 -s | tee -a workloada.dat 


加 载 命令 后 面 的 hbase 表 示 ， 要 测试 的 目标 数据 库 是 HBase，YCSB 代 码 内 部 直接 调用 JAR 包 hbase-binding-0.1.4jar。-P 指 定 负载 配置 文件 的 位 置 。-p 用 来 设置 一 些 参数 ， 例 如 列 族 、 行 数 、 并 发 线程 
数 等 。-s 指 定 运行 过 程 中 显示 状态 信息 ， 默 认 不 显示 。tee-a workloada.dat 表 示 将 结果 输出 到 本 地 文件 workloada.dat。 
最 终 写 密集 压力 测试 的 统计 结果 信息 如 下 ， 当 然 ， 信 息 非 常 多 ， 下 面 代码 只 是 最 关键 的 一 部 分 。 
10 sec: 130396 operations; 13036.99 current ops/sec; [INSERT AverageLatency (us) -293.22] 
20 sec: 338221 operations; 20776.27 current ops/sec; [INSERT AverageLatency (us) ] 
30 sec: 550121 operations; 21185.76 current ops/sec; [INSERT AverageLatency (us) ] 
40 sec: 737571 operations; 18741.25 current ops/sec; [INSERT AverageLatency (us) -213.33] 
50 sec: 892421 operations; 15483.45 current ops/sec; [INSERT AverageLatency (us) -257.54] 
59 sec: 1000000 operations: 10941.72 current ops/sec; [UPDATE AverageLatency (us) = 
660242.75] [INSERT AverageLatency (us) -243.54] [CLEANUP AverageLatency (us) = 
660406.5] 
[OVERALL], RunTime (ms),  59845.0 
[OVERALL], Throughput (ops/sec) , 16709.833737154317 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
[INSERT], Operations, 1000000 
[INSERT], AverageLatency (us) , 220.467354 
[INSERT], MinLatency (us), 8 
[INSERT], MaxLatency (us) , 3323369 
[INSERT], 95thPercentileLatency (ms), 0 
[INSERT]; 99thPercentileLatency (ms), 0 
[INSERT]; Return-0, 1000000 
http://www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 
从 上 面 代 码 中 可 以 看 到 ， 加 载 100 万 数据 ， 总 耗 时 将 近 60 秒 ， 平 均 每 秒 写 入 16709 条 记录 。 延 时 的 单位 是 us ( 微 秒 ) 。 
4. 读 密集 基准 测试 
YCSB 命 令 中 的 run 用 于 测试 读 密集 压力 测试 ， 其 使 用 方法 与 load 方 式 ( 写 密集 ) 非常 类 似 ， 命 令 行 使 用 如 下 所 示 ， 其 中 所 有 的 参数 使 用 都 与 load 方 式 相同 。 


bin/ycsb run hbase -P workloads/workloadb -p columnfamily-fl -p recordcount- 
1000000 -p operationcount-100000 -p threadcount-10 -s | tee -a workloadb.dat 


读 密集 基本 测试 命令 的 运行 结果 如 下 : 


10 sec: 20057 operations; 2005.3 


current ops/sec; [UPDATE AverageLatency (us) = 
] 


1198.98] [READ AverageLatency (us) =5140.49 

20 sec: 49084 operations: 2902.12 current ops/sec; [UPDATE AverageLatency (us) = 
76.94] [READ AverageLatency (us) -3609.75] 

30 sec: 80927 operations: 3183.66 current ops/sec; [UPDATE AverageLatency (us) = 
58.09] [READ AverageLatency (us) —3291.03] 

36 sec: 100000 operations: 3002.2 current ops/sec: [UPDATE AverageLatency (us) = 
1561.82] [READ AverageLatency (us) -3170.32] [CLEANUP AverageLatency (us) -149059.2] 


[OVERALL], RunTime (ms) , 36360.0 
[OVERALL], Throughput (ops/sec) , 


2750.27502750275 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/... 


[READ], Operations, 95056 


READ], AverageLatency (us) , 3732.2771313751896 


[ 
[READ], MinLatency (us), 462 
[READ], MaxLatency (us), 1051969 
[READ], O95thPercentileLatency (ms) , 
[READ], O99thPercentileLatency (ms) , 
[READ], Return=0, 5056 


11 
23 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/.. 


从 结果 的 输出 信息 可 以 看 出 ， 查 询 10 万 个 请 求 ， 总 耗 时 36 秒 ， 平 均 每 秒 处 理 2750 个 请 求 。 运 行 命令 汇总 ， 将 总 线程 数 开 到 10 个 ， 而 整体 吞吐 量 并 不 高 ， 可 见 集群 整体 的 随机 读 性 能 并 不 是 非常 理想 。 


当然 ， 上 面 的 读 写 压力 基准 测试 都 是 简单 的 示例 ， 对 于 生产 用 HBase 集 群 ， 不 管 是 初始 搭建 ， 还 是 调 优 后 性 能 对 比 测试 ， 都 需要 更 全 面 、 更 严谨 的 基准 测试 ， 需 要 用 户 对 不 同 的 维度 做 对 比 测试 ， 例 如 
写 入 或 者 读 取 的 行 数 、 并 发 线程 数 、 列 族 数 量 等 。 并 且 测 试 环境 需要 非常 “安静 ” ， 不 能 运行 其 他 业务 的 同时 进行 压力 测试 ， 集 群 节点 不 能 启动 HBase 相 关 进 程 之 外 的 其 他 应 用 进程 。 通 过 压力 测试 ， 能 
评估 整个 集群 读 和 写 的 性 能 瓶颈 ， 如 果 结合 Ganglia 监 控 ， 能 够 使 得 评估 结果 更 加 准确 、 可 信 。 


12.12 本章 小 结 


系统 调 优 属 于 经 验 性 的 总 结 ， 与 概念 知识 、 应 用 开发 的 内 容 有 比较 大 的 差异 。 如 果 读 者 刚 开始 接触 HBase， 可 能 需要 花费 很 长 时 间 ， 经 历 很 多 挫折 才能 积累 这 些 经 验 性 的 知识 。 正 所 谓 “ 他 山 之 石 可 以 
攻 玉 ”， 希 望 本 章 讲解 的 内 容 能 够 让 读者 朋友 少 走 很 多 弯路 。 


本 章 讲解 的 内 容 涵盖 了 HBase 系 统 优化 的 绝 大 部 分 内 容 ， 有 些 知识 点 介绍 得 非常 详细 ， 有 些 知识 点 由 于 前 面 章节 已 经 有 详尽 的 介绍 而 没有 再 展开 讲解 ， 有 些 知识 点 则 是 一 带 而 过 或 者 没有 涉及 。 例 


如 ，HDFS 的 优化 等 知识 点 没有 介绍 ， 因 为 HDFS 优 化 不 能 作为 本 书 阐述 的 重点 ， 加 之 篇 幅 有 限 ， 


附录 A ”HBase 配 置 参 数 介绍 


有 兴趣 的 读者 可 以 在 互联 网 上 查阅 资料 或 者 从 相关 书籍 上 查阅 资料 。 


本 附录 将 罗列 所 有 HBase 支 持 的 配置 参数 ， 同 时 解释 参数 的 含义 、 默 认 值 和 值 的 度量 单位 等 信息 。 这 些 配 置 参数 都 可 以 在 hbase-site.xml 中 进行 设置 。 介 绍 过 程 中 按照 所 属 组 件 和 功能 进行 分 类 ， 例 
如 ， 有 常规 、Master、RegionServer、ZooKeeper 等 分 类 。 


HBase 常 规 配置 参数 如 表 A-1 所 示 。 


参数 名 称 


dfs.support.append 


hbase.rootdir 


hbase.cluster.distributed 


hbase.tmp.dir 


hbase.local.dir 


Master 相 关 参 数 如 表 A-2 所 示 。 


参数 说 明 
ftir HDFS 追加 文件 ， 确 保 在 使 用 HDFS 存储 时 ， 不 出 
Bi 数据 遗失 


HBase 持 久 化 到 HDFS 的 根 目录 ， 是 -个 URL 的 表 
达 式 。 该 表达 式 必须 包含 文件 系统 前 级 ， 必 须 是 绝对 
路 径 。 例 如 ， 如 果 指 定 HDFS 路 ia 也 /hbase, HDFS 的 
NameNode iz fT {E namenode.example.org 节点 的 9000 ji; 
口上 ， 那 么 该 参数 的 值 应 该 是 : hdfs//mamenode.example. 


ed 


org:9000/hbase 

HBase 集群 运行 模式 。 如 果 该 参数 的 值 为 false， 表 示 
Standalone 模 v 如 果 为 tue， 表 示 分 布 式 模式 。 如 果 为 
false， 则 会 在 同一 个 节点 上 运行 HBase 和 ZooKeeper 的 所 
有 守护 进程 


表 A-2 Master 相 关 参 数 


file:///tmp/hbase- 
$ {user.name}/hbase 


$ (java.io.tmpdir]/ 
hbase-$ (user.name] 

S {hbase.tmp.dir}/ 
local/ 


Da CETT TIT 
hbase.master port HBase Master 绑 定 的 端口 60000 


HBase Master 的 Web UI 端 口 ， 如 果 设 置 
hbase.master.info.port 为 -1， 表 示 不 运行 HBase Master 的 Web UI! 60010 
界面 


hbase.master.info.bindAddress HBase Master 的 Web UI $2558 Hiit 0.0.0.0 -一 


当 使 用 DNS 的 时 候 ，Master 用 来 上 报 的 
hbase.master.dns.interface IP 地址 的 网 络 接口 名 字 二 


当 使 用 DNS 的 时 候 ，RegionServer 使 用 的 
hbase.master.dns.nameserver DNS 的 域名 或 者 IP 地址 ，Master 通过 它 来 | default 一 
确定 用 来 进行 通信 的 域名 
HLog 存 在 于 .oldlogdir 文 件 夹 的 最 长 时 
hbase.master.logcleaner.ttl x j Eug SOLA 600000 
i 间 ， 超 过 了 就 会 被 Master 的 线程 清理 au 


LogsCleaner 服务 会 执行 的 一 组 LogCleaner- 
Delegat。 值 用 逗号 间隔 的 文本 表示 。 这 些 
WAL/HLog Cleaner 会 按 顺 序 调 用 。 可 以 把 
先 调用 的 放 在 前 面 。 可 以 实现 自己 的 Log- 
CleanerDelegat， 加 到 Classpath 下 ， 然 后 在 这 里 
写 下 类 的 全 称 ， 一般 都 会 加 在 默认 值 的 前 面 


org.apache.hadoop. 
hbase.master logcleaner plugins hbase.master.cleaner. S 


TimeToLiveLogCleaner 


- o. "Ansch&dadoo 
HFile 的 清理 插件 列表 ,被 HFileService 调 | ^ 5 Pac ie nac o0P 


. hbase.master.cleaner. < 一 
， 可 以 自 定 义 ， 以 逗号 用 
用 ， 可 以 自 定义 ， 以 逗号 分 隔 TimeToLiveHFileCleaner 


hbase.balancer period Master 执行 Region Balancer 的 间隔 300000 ms 


. 当 任意 RegionServer 有 average + (average * 
hbase.regions.slop : fak 0.2 am 
slop) 个 Region 时 会 执行 Rebalance 


服务 工作 的 睡眠 时 间 间 隔 。 可 以 作为 服务 
hbase.serverthread-wakefrequency | 线程 的 睡眠 时 间 间隔 ， 比 如 log roller 5 


hbase.master.hfilecleaner.plugins 


hbase.server.versionfile.writeattempts | ”终止 之 前 允许 写 版 本 文件 的 尝试 次 数 


Regionserver 相 关 参 数 如 表 A-3 所 示 。 


表 A-3 ”RegionServer 相 关 参 数 


参数 名 称 


hbase.regionserver.port HBase RegionServer 的 绑 定 端口 
HBase RegionServer 的 Web UI 绑 
hbase.regionserver.info.port 定 端口 ， 如 果 设 置 为 -1， 则 不 启动 


HBase RegionServer 的 Web UI 服务 
Master 或 RegionServer 的 Web 
UI 自 动 搜索 端口 绑 定 。 如 果 hbase. 
hbase.regionserver.info.port.auto regionserver.info.port ^ij O IE fe fidi JH, 
则 目 动 搜索 其 他 端口 使 用 。 默 认 情 况 
下 是 false 


参数 名 称 


hbase.regionserver.info.bindA ddress 


hbase.regionserver.class 


hbase.regionserver.lease.period 


hbase.regionserver.handler.count 


hbase.regionserver.msginterval 


hbase.regionserver.optionallogflushinterval 


hbase.regionserver.regionSplitLimit 


(&) 
参数 说 明 seii Tayn 
HBase RegionServer 的 Web UI 绑 定 
ase RegionServer HJ We dis 0.0.0.0 本 


的 IP 地址 

RegionServer 使 用 的 接口 ， 客 户 端 打 
开 到 远 端 RegionServer 代理 时 使 用 

RegionServer 的 租用 周期 。 客 户 端 必 
须 在 60 ELIN [5] RegionServer Ełk, 
则 判定 客户 端 “Dead ” 

RegionServer 受 理 的 RPC Server 3: 
例 数量 。 对 于 Master 来 说 ， 这 个 属性 
是 Master 受理 的 handler 数量 

RegionServer 发 消息 给 Master 时 间 
DKS 

将 HLog 同步 到 HDFS 的 间隔 。 如 果 
Hlog 没有 积累 到 一 定 的 数量 ， 到 了 时 
间 ， 也 会 触发 同步 

Region 的 数量 到 了 这 个 值 后 就 不 会 
再 分 裂 。 这 不 是 一 个 Region 数量 的 硬 
性 限制 。 但 是 起 到 了 一 定 指导 性 的 作 


用 ， 到 了 这 个 值 就 该 停止 分 型。 默认 是 
整数 类 型 最 大 值 ， 就 是 说 不 阻止 分 裂 


ms 


hbase.regionserver.logroll.period 


提交 commit log 的 间隔 ， 


有 写 入 足够 多 的 数据 


REAR 
EA 3600000 


ms 


hbase.regionserver.logroll.errors.tolerated 


hbase.regionserver.hlog.reader.impl 


hbase.regionserver.hlog.writer.impl 


hbase.regionserver.nbreservationblocks 


hbase.regionserver.dns interface 


hbase.regionserver.dns.nameserver 


可 接受 的 WAL 关闭 错误 个 数 ， 到 达 
后 将 触发 服务 需 终 止 ; 如 果 设 置 为 0， 
那么 在 WAL writer fi log rolling 失败 
时 就 终止 RegionServer 


org.apache.hadoop. 


HLog 文件 reader 的 实现 


hbase.regionserver.wal. 


SequenceFileLogReader 


org.apache.hadoop. 


HLog 文件 writer 的 实现 hbase.regionserver.wal. 


SequenceFileLogWriter 


4 


default 


储备 的 内 存 Block 的 数量 。 当 发 生 
out of memory 异常 时 ， 可 以 用 这 些 内 
存在 RegionServer 停止 之 前 做 清理 操作 
当 使 用 DNS 的 时 候 ，RegionServer 
用 来 上 报 的 IP 地 址 的 网 络 接口 名 字 
当 使 用 DNS 的 时 候 ，RegionServer 
使 用 的 DNS 的 域名 或 者 耳 地 址 ， 
RegionServer 通过 它 来 确定 和 master 


进行 通信 的 域名 


参数 名 称 


参数 说 明 默认 值 度量 单位 


单个 RegionServer 的 全 部 memstore 的 


hbaseTegionserver global memstore.upperLimit | 最 大 值 。 超 过 这 个 值 ， 一 个 新 的 update| 0.4 一 


hbase.regionserver.global memstore.lowerLimit 


hbase.regionserver checksum.verify 


hbase.hregion.memstore flush.size 


hbase.hregion.preclose flush.size 


hbase.hregion.memstore.block.multiplier 


hbase.hregion.memstore.mslab.enabled 


hbase.hregion.max.filesize 


操作 会 被 挂 起 ， 强 制 执行 ftush 操作 


当 强 制 执 行 flush 操作 时 ， 低 于 这 个 
值 的 时 候 ，flush 会 停止 
如 果 hbase regionserverglobal memstore. 
upperLimit 值 与 该 参数 值 相同 就 意味 着 
当 update 操作 因为 内 存 限制 被 挂 起 时 ， 
会 尽量 减少 执行 flush 的 次 数 


允许 HBase 在 不 使 用 HDFS 校 验 和 
的 情况 下 做 检验 和 操作 。 该 项 参数 不 一 
能 向 后 兼容 

当 memstore 的 大 小 超过 这 个 值 的 时 
Bs, Sms 到 磁盘 。 这 个 值 被 一 个 线 uta y 
FESH hbase.serverthread wakefrequency 
检查 一 次 


当 一 个 Region 中 的 memstore 的 大 
小 大 于 这 个 值 时 ， 我 们 又 触发 了 close, 
此 时 会 先 运行 pre-flush 操作 ， 清 理 这 
个 需要 关闭 的 memstore， 然 后 将 这 个 
region 下 线 。 当 一 个 Region 下 线 了 ,无 法 
再 进行 任何 写 操 作 。 如 果 一 个 mems-| 5242880 Byte 
tore ÍR K KITIR., flush 操作 会 消耗 很 
多 时 间 。pre-ftush 操作 意味 着 在 Region 
下 线 之 前 ， 会 先 把 memstore 清空 。 这 
样 在 最 终 执行 close 操作 的 时 候 ， flush 
操作 会 很 快 


如 果 memstore 有 hbase.hregion.memstore. 
block.multiplier 倍数 的 hbase.hregion.flush. 
size 的 大 小 ， 就 会 阻塞 update 操作 。 
这 是 为 了 预防 在 update 高 峰 期 会 导致 | 2 
的 失控 。 如 果 不 设 上 界 ，flush 的 时 候 
会 花 很 长 的 时 间 来 合并 或 者 分 割 ， 最 
坏 的 情况 就 是 引发 OOME 异常 


该 参数 是 体验 特性 。 启 用 memstore 


分 配 本 地 缓冲 区 。 这 个 特性 是 为 了 防 
止 在 大 量 写 负载 的 时 候 堆 的 碎片 过 多 ， 
可 以 减少 GC 操作 的 频率 


最 大 HStoreFile 大 小 ， 若 某 个 Column 
Family 的 HStoreFile 增长 达到 这 个 值 ， 
eer e rE Byte 
该 HRegion 会 被 切割 成 两 个 。 默 认为 
10GB 


参数 名 称 


当 一 个 HStore 含有 多 于 该 值 的 HStore- 
Files (每 一 个 memstore flush 产生 一 个 
hbase.hstore.compactionThreshold HStoreFile) 个 数 的 时 候 ， 会 执行 一 个 合 
并 操作 ， 把 这 HStoreFiles 写成 一 个 。 这 
个 值 越 大 ， 需 要 合并 的 时 间 就 越 长 


当 一 个 HStore 含 有 多 于 该 值 的 
HStoreFiles (每 一 个 memstore flush 产 


生 一 个 HStoreFile) 个 数 的 时 候 ， 会 执 
行 一 个 合并 操作 ，update 会 阻塞 直到 
合并 完成 ， 直 到 超过 了 hbase.hstore. 
blockingWaitTime 的 值 
hbase.hstore.blockingStoreFiles 所 限制 的 
StoreFile 数量 会 导致 update [H JE, 这 个 


hbase.hstore.blockingStoreFiles 


hbase.hstore.blockingWaitTime 时 间 是 用 来 限制 阻塞 时 na jg, "uir 
这 个 时 间 ，HResgion 会 停止 阻塞 update 
潜 作 ， 不 过 合并 还 有 没有 完成 
全 A wj” Zw Ji HStor Fil - 
hbase.hstore.compaction.max "e 下 合并 的 oeil 10 
里 


一 个 Region 中 的 所 有 HStoreFile 的 
hbase.hregion.majorcompaction major compactions 的 时 间 问 隔 。 默 认 是 | 86400000 ms 
;设置 为 0 就 是 禁用 这 个 功能 
分 配给 HFile/StoreFile 的 Block Cache 
hfile.block.cache.size 占 最 大 堆 (-Xmx 设置 ) 的 比例 。 设 置 
为 0 表示 不 分 配 
当 索 引 重 写 的 时 候 ， 人 允许 将 非 root, 
多 层 索 引 块 放 到 Block Cache 中 
控制 索引 块 的 大 小 ， 索 引 块 越 小 ， 
需要 的 索引 块 越 多 ， 索 引 的 层级 越 深 


新 文件 的 HFile 格式 版 本 ， 设 置 为 1 
hfile.format.version "un intem 2 
来 测试 向 后 兼容 


客户 端 参数 如 表 A-4 所 示 。 


hfile.block.index.cacheonwrite 


hfile.index.block.max.size 


AAA 客户 端 参数 


参数 名 称 参数 说 明 度量 单位 


hbase.client.pause ms 
尝试 连接 前 ， 等 待 的 时 间 间 隔 


HTable 客户 端 写 缓存 的 默认 值 。 该 值 既 会 影响 到 客户 端 ， 
又 会 影响 到 服务 端 。 因 为 客户 端 提 交 后 ， 服 务 端 需要 批量 处 
hbase.client.write.buffer 理 这 些 提 交 数 据 ， 所 以 性 能 调 优 时 候 ， 需 要 重点 考虑 服务 端 | 2097152 Byte 
的 承受 能 力 ， 可 以 参考 服务 端的 整体 内 存 消耗 : 写 缓存 大 小 
*hbase.regionserver.handler.count 
常规 的 客户 端 暂停 时 间 。 用 于 当 客 户 端 请 求 失 败 时 ,重新 — 


hbase.client.retries.number 客户 端 失败 时 最 大 的 尝试 次 数 


参数 名 称 参数 说 明 ERT 度量 单位 


Scanner 在 调用 nextQ 方法 时 ， 一 次 获取 的 行 数 。 当 然 ， 
前 提 是 没有 从 本 地 或 客户 端的 缓存 中 查 到 结果 nasa 
会 使 得 Scanner 的 速度 更 快 ， 但 会 消耗 更 多 的 内 存 。 但 是 
RENS ARARSIN AA 


hbase.client.scanner.caching 


Scanner 的 超时 时 间 ， 即 hbase.regionserver.lease.period 参数 


的 值 


一 个 KeyValue 实例 的 最 大 容量 。 用 来 设置 存储 文件 中 单个 
entry 的 大 小 上 界 。 因 为 一 个 KeyValue 是 不 能 分 割 的 ， 所 以 
hbase.client.keyvalue.maxsize | 可 以 避免 因为 数据 过 大 导致 region 不 可 分 割 。 明 智 的 做 法 是 | 10485760 Byte 
把 它 设 为 可 以 被 最 大 region size 整除 的 数 。 如 果 设 置 为 0 或 
者 更 小 ， 就 会 禁用 这 个 检查 。 默 认为 10MB 


安全 类 参数 如 表 A-5 所 示 。 


表 A-5 安全 类 参数 


5 TIT 
hbase.master.keytab.file HMaster 验证 登录 使 用 的 kerberos keytab 文件 路 径 
HMaster 运行 需要 使 用 kerberos principal 44 fj. 
Principal 名 f 可 以 在 user/hostname@DOMAIN 中 
hbase.master.kerberos.principal 获取 。 如 果 " HOST" 被 用 作 主 机 名 ， 需 要 使 用 实 一 
际 运 行 的 主机 名 来 代替 。 例 如 ，"hbase/_HOST@ 
EXAMPLE.COM" 
HRegionServer 验证 登录 使 用 的 kerberos keytab X: 
件 路 径 
HRegionServer 运行 需要 使 用 kerberos principal 名 
FK. principal 44 FK n] LJ YE user/hostname(DOMAIN 
中 获取 。 如 果 " HOST" 被 用 作 主 机 名 ， 需 要 使 用 
实际 运行 的 主机 名 来 代替 。 在 这 个 文件 中 必须 要 有 
一 个 entry 来 描述 ee 例 
如 ，"hbase/ HOST@EXAMPLE.COM" 


RPC 服务 器 做 权限 认证 时 需要 的 安全 策略 配置 
l'F. 在 HBase security 开启 后 使 用 

HBase security 开局 后 的 超级 用 户 配置 ， 一 系列 由 
3 5 JT IT user 或 者 group 


hbase.regionserver.keytab.file 


hbase.regionserver.kerberos.principal 


hadoop.policy.file 


hbase.superuser 


HBase security 开启 后 服务 端 更 新 认证 Key 的 间 
hbase.auth.key.update.interval 隔 时 间 pem 2 r 86400000 ms 


HBase security 开启 后 ， 认 证 token 下 发 后 的 生存 
hbase.auth.token.max.lifetime 周期 bí inda F AUR RU AERE 604800000 ms 
[si p: 


ZooKeeper 相 关 参 数 如 表 A-6 所 示 。 


表 A-6 ZooKeeper 相 关 参 数 


参数 名 称 参数 说 明 默认 值 度量 单位 
使 用 DNS 的 时 候 ，ZooKeeper 用 来 上 报 
的 IP 地 址 的 网 络 接口 名 字 


hbase.zookeeper.dns.interface default = 


当 使 用 DNS 的 时 候 ，ZooKeeper 使 用 的 
hbase.zookeeper.dns.nameserver DNS 的 域名 或 者 全 地 址 ，ZooKeeper 通过 | default 一 
它 来 确定 和 master 进行 通信 的 域名 
ZooKeeper 会 话 超时 时 间 。HBase 把 这 个 
zookeeper.session.timeout 值 传递 给 ZooKeeper 集 群 ， 向 它 推荐 一 个 180000 ms 
会 话 的 最 大 超时 时 间 


ZooKeeper 中 HBase 的 根 ZNode。 所 有 HBase 
Zookeeper.znode.parent 的 dad 会 用 这 个 目录 配置 相对 路 径 。 /hbase — 
默认 情况 下 ， 所 有 HBase 的 ZooKeeper 文件 
路 径 是 相对 路 径 


ZNode 保存 的 根 Region 的 路 径 。 这 个 值 
H Master 来 号， 客户 端 和 RegionServer 来 
读 。 如 果 设 为 一 个 相对 地 址 ， 父 目录 就 是 
${zookeeper.znode.parent}Y。 默认 情形 下 ， 
意味 着 根 Region 的 路 径 存储 在 /hbase/root- 


Te gion-server 


zookeeper.znode.rootserver root-region-server 


zookeeper.znode.acl.parent 根 ZNode 的 acl， 默 认为 acl 


acl 
Ji al zk RIARIK, 3E UAR. Ardu 
hbase.zookeeper.quorum 式 集群 模式 下 必须 设置 默认 是 localhost， localhost 
s i ARE i AEN ocalhos — 
porq HBase 客 户 端 也 需要 设置 这 个 值 去 访问 
ZooKeeper。 该 参数 是 重要 的 也 是 必须 设置 的 


hbase.zookeeper.peerport ZooKeeper 15 {EH AJ m H - 
hbase.zookeeper.leaderport ZooKeeper 用 来 选择 Leader 的 端口 一 
ZooKeeper 支持 多 重 update ， 要 求 Zoo- 
Keeper 在 3.4 版 本 以 上 上， 默认 是 falsezk x 
持 多 重 update， 要 求 ZooKeeper 在 3.4 版 本 
以 上 
初始 化 同步 阶段 的 ticks 数量 限制 。 在 
ZooKeeper 的 zoo.conf 中 配置 
ZooKeeper 的 zoo.conf 中 的 配置 。 发 送 一 


hbase.zookeeper.useMulti 


hbase.zookeeper.property.initLimit 


hbase.zookeeper.property.syncLimit 


个 请 求 到 获得 承认 之 间 的 ticks 的 数量 限制 
快照 的 存储 位 置 。 在 ZooKeeper 的 zoo.| $f{hbase.tmp.dir}/ 


hbase.zookeeper.property.dataDir 


conf 中 配置 zookeeper 
户 端 连接 的 端口 。 在 ZooKeeper Át ? 
hbase.zookeeper.property.clientPort 客户 端 连接 的 只 mE EE 2181 ES 


conf 中 配置 

ZooKeeper 集群 中 的 单个 节点 接受 的 单个 客 
Pun; (以 下 区 分 ) 的 请 求 的 并 发 数 。 这 个 值 
可 以 调 高 一 点 ， 防 止 在 单机 和 伪 分 布 式 模式 
中 出 问题 。 在 ZooKeeper 的 zoo.conf 中 配置 


hbase.zookeeper.property.maxClientCnxns 


Thrift 相 关 参 数 如 表 A-7 所 示 。 


表 A-7 Thrift 相 关 参 数 


参数 名 称 
hbase.thrift.minWorkerThreads 
hbase.thrift.max WorkerThreads 


hbase.thrift.maxQueuedRequests 


参数 说 明 
线程 池 的 最 小 线程 数 ， 在 达到 这 个 量 级 后 ， 新 线程 才 会 在 
新 的 连接 创立 时 创建 


线程 池 最 大 线程 数 ， 达 到 这 个 数字 后 ， 服 务 吉 开始 丢弃 连接 
Thrift 连接 队列 的 最 大 数 ， 如 果 线 程 池 满 ， 会 先 在 这 个 队 


列 中 缓存 请 求 ， 缓 存 上 限 就 是 该 配置 


REST 相 关 参 数 如 表 A-8 所 示 。 


参数 名 称 


表 A-8 REST 相 关 参 数 


参数 说 明 


REST 服务 器 线程 池 的 最 大 线程 数 ， 池 满 的 话 新 请 求 会 自动 排队 ， 
限制 这 个 起 置 可 以 控制 服务 问 的 内 存量 ， 预 防 OOME 异常 


hbase.rest.threads.max 


hbase.rest.threads.min 同上 类 似 ， 最 小 线程 数 ， 为 了 确保 服务 器 的 服务 状态 


hbase.rest.port 


定义 REST 服务 器 的 运行 模式 。 可 以 设置 成 如 下 的 值 : 
hbase.rest.readonly false: 所 有 的 HTTP 请 求 都 人 允许， 例如 ，GET/PUT/POST/DELETE 


true: 只 


其 他 参数 如 表 A-9 所 示 。 


参数 名 称 


hbase.bulkload.retries.number 


hbase.mapreduce.hfileoutputformat.blocksize 


io.storefile.bloom.block.size 


io.storefile.bloom.cacheonwrite 


有 GET 请 求 允 许 


表 A-9 其 他 参数 


Bulkload 失败 时 最 大 的 尝试 次 数 = 

MapReduce 中 HFileOutputFormat 可 
以 写 StoreFile/HFile。 这 个 值 是 HFile 的 
BlockSize 的 最 小 值 。 通 和 常 在 HBase 写 
HFile 的 时 候 ，BlockSize 是 由 表 schema 
(HColumnDescriptor) 决定 的 ， 但 是 在 
MapReduce 写 的 时 候 ， 无 法 获取 schema 
中 BlockSize。 这 个 值 越 小 ， 索 引 就 越 大 ， 


Byte 


随机 访问 需要 获取 的 数据 就 越 小 。 如 果 
Cell 都 很 小 ， 且 需要 更 快 的 随机 访问 速 
度 ， 可 以 把 这 个 值 调 低 


一 个 联合 布 隆 过 滤 需 的 单一 块 (Chunk) A xa 
; oeste EA 2 e 
的 大 小 ， 这 个 值 是 一 个 逼近 值 


对 于 组 合 布 隆 过 滤器 的 内 联 Block 开启 


cache-on-write 


false = 


hbase.rs.cacheblocksonwrite 


当 一 个 HFile Block 完成 时 是 否 写 入 


false 
Block Cache 


参数 名 称 


hbase.rpc.engine 


hbase.coprocessor.region.classes 


hbase.coprocessor.master.classes 


hbase.defaults.for.version 


hbase.defaults.for.version.skip 


参数 说 明 ERA 


org.apache.hadoop.hbase.ipc.RpcEngine 
的 实现 类 ， 用 于 客户 端 或 服务 端的 RPC 
调用 编组 

E 5 4 HR Coprocessor 71] X, S iA 
加 载 到 所 有 表 上 。 在 自己 实现 了 一 个 
将 其 添加 到 HBase 的 
Classpath 并 加 入 全 限定 名 。 也 可 以 延迟 
加 载 ， 由 HTableDescriptor 指定 

由 HMaster 进程 加载 HYJ Coprocessor, 
有 逗号 分 隔 ， 全 部 实现 org.apache.hadoop. 
hbase.coprocessor.MasterObserver, 125 
与 同 Coprocessor 类 似 ， 加 入 Classpath 及 
全 限定 名 

编译 文件 中 的 版 本 信息 

是 否 跳 过 hbase.defaults.for.version 的 检查 


Coprocessor 后 , 


CHE) 


org.apache.hadoop.hbase. 
ipc. WritableRpcEngine 


(0G G VERSION QQ 


位 


行 以 生成 标准 的 JDBC 结 果 集 。 直 接 使 用 HBase API、 协 处 理 器 与 自 定义 过 滤器 。 本 附录 将 介绍 Phoenix 中 使 用 的 SQL 语法 ， 分 别 从 语法 、 函 数 、 数 据 类 型 等 三 方面 进行 讲解 ， 并 且 每 个 方面 都 会 附带 代码 示 


例 。 


B.1 


hbase.coprocessor.abortonerror 


hbase.online.schema.update.enable 


hbase.offheapcache.percentage 


hbase.data.umask.enable 


hbase.data.umask 
hbase.metrics.showTableName 


hbase.table.archive.directory 


hbase.hash.type 


如 果 Coprocessor 加 载 失败 、 初 始 化 失 
败 或 者 抛 出 Throwable 对 象 ， 则 主机 退 
出 。 设 置 为 false 会 让 系统 继续 运行 ， 但 
是 Coprocessor 的 状态 会 不 一 致 ， 所 以 一 
般 Debug 时 才 会 设置 为 false 

it Tb true W b iT E £X schema 变更 ; 
false 则 不 允许 

JVM 参数 -XX:MaxDirectMemorySize 的 
百分比 值 ， 默 认 是 0， 即 不 开启 堆 外 分 配 

开启 后 ,文件 在 RegionServer 写 人 时 会 
有 权限 相关 设 定 ，false 表示 不 开启 true 
表示 开启 

开启 上 面 一 项 配置 后 ， 文 件 的 权限 umask 

是 否 为 每 个 指标 显示 表 名 前 绥 

存在 于 每 个 表 目 录 下 ， 用 于 备份 表 

Hash 函数 使 用 的 哈 希 算法 。 可 以 选 
择 Wj 个 ffi: murmur (MurmurHash) 和 


jenkins ( JenkinsHash )， 该 哈 希 是 给 bloom 
filters 用 的 


附录 B Phoenix SQL 语法 详解 


false 


.archive = 


murmur - 


Phoenix 是 构建 在 HBase 上 的 SQL 中 间 层 ， 开 始 基 于 原生 的 Apache HBase， 之 后 的 版 本 支持 Cloudera 和 MapR 的 商业 发 行 版 。Phoenix 查 询 引擎 会 将 SQL 查询 转换 为 一 个 或 多 个 HBase Scan, HTH 


SQL 基本 语法 


Phoenix 中 虽然 紧 跟 ANSI SQL 标准 ， 但 是 并 没有 实现 所 有 ANSI SQL 的 语法 ， 其 基本 SQL 语法 的 类 别 和 使 


1. 查 询 SELECT 


说 明 如 下 所 示 。 


SELECT 用 于 表 的 数据 查询 操作 。 可 以 配合 使 用 的 命令 说 明 如 表 B-1 所 示 。 


表 B-1 配合 SELECT 查询 的 命令 列表 


FS 功能 说 明 


DISTINCT 过 滤 重 复 结果 ， 默 认 是 ALL， 即 包含 所 有 结果 

From 表示 所 查询 的 表 (目前 只 支持 单 表 ， 不 支持 Join MIRER) 

GROUP BY 按照 给 定 的 表达 式 将 结果 分 组 

HAVING 在 分 组 后 面 ， 用 于 过 滤 行 

ORDER BY 按照 给 定 的 列 和 表达 式 将 结果 排序 ， 只 人 允许 应 用 在 聚合 查询 和 带 有 LIMIT 的 语句 中 
( 续 ) 


命 令 功能 说 明 
LIMIT 限制 返回 结果 行 数 。LIMIT 语句 在 ORDER BY 语句 后 执行 
Hint 可 选项 ， 用 于 重 写 默认 查询 


SELECT 语法 树 如 图 B-1 所 示 。 


- DISTINCT E 
ALL 


(WHERE apean} 


WHERE expression 


| GROUP BY expression uum 


HAVING expression 


(ORGER EY ier —- 


RDER BY order 


图 B-1 SELECT 语法 树 图 


SELECT 查询 配合 其 附属 命令 的 使 用 示例 如 下 : 


SELECT * FROM TEST 

SELECT a.* FROM TEST 

SELECT DISTINCT NAME FROM TEST 

SELECT ID, COUNT (1) FROM TEST GROUP BY ID 

SELECT NAME, SUM (VAL) FROM TEST GROUP BY NAME HAVING COUNT (1) > 2 
SELECT 'ID' COL, MAX (ID) AS MAX FROM TEST 

SELECT * FROM TEST LIMIT 1000 


2. 更 新 插入 UPSERT VALUES 


如 果 当 前 存在 则 更 新 ， 如 果 不 存 在 则 插入 。 列 是 可 选 的 ， 值 会 按 顺序 映射 到 某 个 列 。 这 些 值 必须 是 常量 。 更 新 插入 的 语法 树 如 图 B-2 所 示 。 


UPSERT INTO tableName 


( columnName 


图 B-2 UPSERT VALUES 语 法 树 


更 新 插入 操作 的 使 用 示例 如 下 : 


UPSERT INTO TEST VALUES ('foo', 'bar', 3) 
UPSERT INTO TEST (NAME, ID) VALUES ('foo', 123) 


3. 查 询 后 更 新 插入 UPSERT SELECT 
匹配 县 查询 中 无 聚合 ， 目 标 表 的 分 布 将 在 服务 器 端 完 成 。 否 则 先 在 客户 端 缓 存 ， 


另 一 个 查询 中 的 结果 作为 数据 源 。 目 标 表 和 源 表 的 字段 必须 有 严格 的 匹配 。 列 可 选 。 如 果 开 启 自动 提交 ， 目 标 表 和 源 表 
属性 直接 影响 提交 操作 。 查 询 后 更 新 插入 命令 的 语法 树 如 图 B-3 所 示 。 


然后 批量 提交 到 服务 器 端 。UpsertBatchSize (默认 10000 行 ) 


UPSERT INTO tableName [ — 


图 B-3 UPSERT SELECT 语法 树 图 


查询 后 更 新 插入 命令 的 使 用 示例 如 下 : 


UPSERT INTO test.targetTable (coll, col2) 
SELECT col3, col4 FROM test.sourceTable WHERE col5 < 100 


UPSERT INTO foo SELECT * FROM bar 


4. 删 除 DELETE 


根据 WHERE 语句 删除 行 。 如 果 开启 自动 提交 ， 删 除 操作 在 服务 器 端 执行 。 删 除 命令 的 语法 树 如 图 B-4 所 示 。 


DELETE FROM tableName 


WHERE expression 


Cat bindParameter T 
number 


ORDER BY order "E 


图 B-4 DELETE 语 法 树 图 


删除 操作 的 使 用 示例 如 下 : 


DELETE FROM TEST 
DELETE FROM TEST WHERE ID-123 
DELETE FROM TEST WHERE NAME LIKE 'foo$' 


5. 创 建 表 或 视图 CREATE 


双 引 号 引起 ， 所 以 是 区 分 大 小 写 的 ) ， 没 有 列 出 的 列 族 不 受 影响 。 创 建 的 时 候 ， 会 插入 一 个 空 的 键 值 对 到 任何 存在 


对 于 建 表 ， 如 果 不 存在 ， 在 创建 HB8ase 表 和 列 族 (使 用 大 写 名 字 ， 如 果 用 小 写 ， 请 


HBase 表 和 列 族 必须 都 已 经 存在 ， 不 会 插入 空 键 值 对 ， 视 图 是 只 读 的 。 对 于 建 表 ，HBase 表 和 列 族 的 配 


行 的 第 一 个 列 族 中 。UPSERT 也 会 添加 这 个 空 键 值 对 。 这 样 做 有 助 于 提高 查询 性 能 。 如 果 创建 视图 ， 
选项 可 以 通过 键 值 对 添加 到 建 表 语句 中 。 创 建 表 和 视图 命令 的 语法 树 如 图 B-5 所 示 。 


|tableName 


constrain 


| tableOptions | 


图 B-5 CREATE 语 法 树 图 


命令 的 使 用 示例 如 下 : 


网 


创建 表 和 视 | 


CREATE TABLE my table ( id BIGINT not null primary key, date DATE not null) 

CREATE TABLE my table ( id INTEGER not null primary key desc, date DATE not null, 
m.db utilization DECIMAL, i.db utilization) 
m.DATA BLOCK ENCODING-'DIFF' 

CREATE TABLE prod metrics ( host char (50) not null, created date date not null, 
txn count bigint CONSTRAINT pk PRIMARY KEY (host, created date) ) 

CREATE TABLE IF NOT EXISTS my table ( id char (10) not null primary key, 


ps value integer) 
DATA BLOCK ENCODING-'NONE', VERSIONS-? , MAX FILESIZE-2000000 split on (?, ?, ?) 


6. 删 除 表 或 视图 DROP 
， 对 数据 没有 影响 。 注 意 schema 是 有 版 本 的 ， 这 样 连 接 到 一 个 较 早 版 本 的 快照 搜索 仍然 会 在 已 删除 的 表 上 进行 ， 因 为 HBase 表 本 身 不 会 被 删除 。 删 除 


pum 
IF EXISTS) 


删除 表 时 ， 也 会 删除 表 里 面 的 数据 。 对 于 删除 视图 
表 和 视图 命令 的 语法 树 如 图 B-6 所 示 。 


图 B-6 ”DROP 语法 树 图 


删除 表 和 视图 命令 的 使 用 示例 如 下 : 


DROP TABLE my schema.my table 
DROP VIEW my view 


7. 修 改 表 结 构 ALTER TABLE 
添加 或 删除 列 。 当 从 一 个 表 删 除 一 列 ， 那 列 的 数据 也 会 被 删除 。PK 列 不 会 被 删除 ， 只 有 Nullable 的 PK 能 删除 。 对 于 视图 ， 删 除 列 对 数据 没有 影响 。 注 意 创建 或 删除 列 只 影响 随后 的 查 
之 前 的 schema。 修 改 表 结 构 命令 的 语法 树 如 图 B-7 所 示 。 


IF NOT EXISTS | 
DRM [一 
IF EXISTS familyName . 


图 B-7 ALTER TABLE 语 法 树 


对 已 存在 表 和 视图 
询 和 数据 修改 。 连 接 到 较 早 版 本 的 快照 查询 还 是 


ALTER TABLE tableName 


修改 表 结 构 命令 的 使 用 示例 如 下 : 


ALTER TABLE my schema.my table ADD d.dept id char (100 VERSIONS=10 


ALTER TABLE my table ADD dept name char (50) 

ALTER TABLE my table ADD parent id char (15) null primary key 
ALTER TABLE my table DROP COLUMN d.dept id 

ALTER TABLE my table DROP COLUMN dept name 

ALTER TABLE my table DROP COLUMN parent id 


8. 语 句 解释 EXPLAIN 


语句 解释 命令 EXPLAIN 用 于 解释 SQL 语句 的 执行 过 程 。 其 语法 树 如 图 B-8 所 示 。 


EXPLAIN I select 


upsertSelect 


图 B-8 EXPLAIN 语 法 树 区 


语句 解释 命令 的 使 用 示例 如 下 : 


EXPLAIN SELECT NAME, COUNT (*) FROM TEST GROUP BY NAME HAVING COUNT (*) > 2; 

EXPLAIN SELECT entity id FROM CORE.CUSTOM ENTITY DATA WHERE organization, 
id-'00D300000000XHP' AND SUBSTR (entity id, 1, 3) = '002' AND created 
date < CURRENT DATE () -1; 


9 .约束 条 件 CONSTRAINT 


约束 条 件 CONSTRAINT 用 于 定义 组 合 主键 的 约束 条 件 。 每 列 可 以 使 用 DESC 或 AsC 排 序 。 默 认 ASC。 其 语法 树 如 图 B-9 所 示 。 


图 B-9 ”CONSTRAINT 语 法 树 图 


约束 条 件 的 使 用 示例 如 下 : 


CONSTRAINT my pk PRIMARY KEY (host, created date) 
CONSTRAINT my pk PRIMARY KEY (host ASC, created date DESC) 


10. 表 选项 TABLE OPTIONS 


通过 修改 HBase 元 数据 设置 HBase 表 或 者 列 选项 。 这 些 选项 作用 于 已 经 命名 的 列 族 或 者 如 果 省 略 ， 则 作用 于 所 有 列 族 。 其 他 情况 下 ， 作 用 于 HTableDescriptor。 其 语法 树 如 图 B-10 所 示 。 


amilyName . 


图 B-10 TABLE OPTIONS 语 法 树 图 


SALT_BUCKETS 是 其 中 一 个 内 置 选项 。 该 选项 会 添加 额外 的 字 节 到 每 一 个 Rowkey， 以 保证 所 有 Region 机 器 写 操 作 的 均衡 分 布 。 这 个 功能 在 Rowkey 单 调 增长 导致 Region 热 点 的 情况 下 是 非常 有 用 的 。 
添加 的 字 节 由 Rowkey 的 哈 希 值 决定 ， 且 根据 SALT_BUCKETS 值 修改 。 该 值 可 能 是 1 到 256 之 间 的 任何 值 1]。 


表 选 项 的 代码 使 用 示例 如 下 : 


SALT BUCKETS-10 
DATA BLOCK ENCODING-'NONE', a.VERSIONS-10 
MAX FILESIZE-2000000000, MEMSTORE FLUSHSIZE-80000000 


11. 列 选项 OPTIONS 


列 选 项 OPTIONS 用 于 设置 HBase 列 的 选项 ， 通 过 修改 HColumnDescriptor 实 现 。 其 语法 树 如 图 B-11 所 示 。 


bindParameter 


图 B-11 OPTIONS 语 法 树 


列 选项 的 代码 使 用 示例 如 下 : 


DATA BLOCK ENCODING-'NONE', VERSIONS-10 
MAX FILESIZE-2000000000, MEMSTORE FLUSHSIZE-80000000 


12. 重 写 默认 查询 处 理 行为 HINT 
高 级 特性 。 实 现 有 三 类 HINT : 
< SKIP_SCAN: 查询 时 强制 跳 过 扫描 。 


“RANGE_SCAN: 查询 时 强制 在 一 定 范围 内 扫描 。 


: NO INTRA. REGION. PARALLELIZATION: 防止 在 一 个 region 上 生成 大 量 的 多 线程 访问 。HINT 命 令 的 语法 树 如 图 B-12 所 示 。 


图 B-12 ”HINT 语 法 树 图 


HINT 命 令 的 使 用 示例 如 下 : 


/** SKIP SCAN */ 
/** RANGE SCAN */ 
/** NO INTRA REGION PARALLELIZATION */ 


13. 定 义 主键 列 COLUMN 


默认 列 名 不 区 分 大 小 写 ， 如 果 双 引号 括 起 ， 则 区 分 大 小 写 。 主 键 可 以 升序 或 者 降序 ， 默 认 升 序 。 其 语法 树 如 图 B-13 所 示 。 


| columnName dataType 


amilyName . 


图 B-13 COLUMN 语法 树 图 


定义 主键 列 的 代码 使 用 示例 如 下 : 


id char (15) not null primary key 
key integer null 
m.response time bigint 


14. 选 择 表达 式 SELECT EXPRESSION 


对 于 选择 表达 式 ， 表 中 所 有 列 使 用 星 号 *， 列 族 中 所 有 列 使 用 <familyName>.*。 其 语法 树 如 图 B-14 所 示 。 


选择 表达 式 的 代码 使 用 示例 如 下 : 


* 
ef. 

ID AS VALUE 

VALUE + 1 VALUE PLUS ONE 


( familyName . * ) 


: columnAljas 


图 B-14 SELECT EXPRESSION 语 法 树 


15. 定 义 表 的 切 分 点 SPLIT POINT 


定义 表 的 切 分 点 操作 支持 任意 字 节 。 其 语法 树 如 图 B-15 所 示 。 


indParameter 


图 B-15 SPLIT POINT 语法 树 图 


定义 表 的 切 分 点 的 使 用 示例 如 下 : 


16. 表 引用 TABLE EXPRESSION 


Joins 和 子 查询 目前 不 支持 。 其 语法 树 如 图 B-16 所 示 。 


schemaName . ' "étableAlias 


图 B-16 TABLE EXPRESSION 语 法 树 图 


表 引 用 使 用 示例 如 下 : 


PRODUCT METRICS AS PM 


17. 排 序 ORDER 


排序 操作 只 支持 带 GROUP BY 的 查询 。 其 语法 树 如 图 B-17 所 示 。 


expression 


图 B-17 ORDER 语法 树 图 


排序 的 代码 使 用 示例 如 下 : 


NAME DESC NULLS LAST 


18.ORA&//FEXPRESSION 


条 件 语句 的 一 种 ， 用 于 表示 “或 ”的 关系 。 其 语法 树 如 图 B-18 所 示 。 


andCondition | IL—— J 


R andCondition 


HB-18 EXPRESSION 语法 树 图 


OR 条 件 的 代码 使 用 示例 如 下 : 


ID=1 OR NAME-'Hi' 


19.AND 条 件 AND CONDITION 


条 件 语句 的 一 种 ， 用 于 表示 “与 ”的 关系 。 其 语法 树 如 图 B-19 所 示 。 


condition 


| AND condition] 


B-19 ADN CONDITION 语 法 树 图 


AND 条 件 的 代码 使 用 示例 如 下 : 


ID=1 AND NAME='Hi' 


20.LIKE 条 件 CONDITION 


表示 任意 一 个 字符 ，% 表 示 任意 字符 。 如 果 表达 式 以 转 义 字符 结尾 是 无 效 的 ， 表 达 式 返回 NULL。 其 语法 树 如 图 B-20 所 示 。 


IN ( constantOperand 


NOT expression 


( expression ) 


图 B-20 CONDITION 语 法 树 图 


Like 条 件 使 用 命令 示例 如 下 : 


NAME LIKE 'Jo$' 


21. 比 较 操作 符 COMPARE 


比较 用 的 操作 符号 ，! = 和 <> 作 用 相同 。 其 语法 树 如 图 B-21 所 示 。 


m m 


比较 操作 符 的 使 用 示例 如 下 : 


<> 


.加 减法 SUMMAND 


于 数字 型 或 日 期 型 数据 。 其 


语法 树 如 


B-22 所 示 。 


图 B-21 COMPARE 语 法 树 图 


factor 


factor 


图 B-22 SUMMAND 语 法 树 


加 减法 使 用 示例 如 下 : 


23. 乘 除法 FACTOR 


乘除 法 操作 用 于 数值 型 数据 的 操作 。 其 语法 树 如 图 B-23 所 示 。 


图 B-23 ”FACTOR 语法 树 图 


乘除 法 使 用 示例 如 下 : 


e*d 
e/5 


24. 可 索引 的 参数 BIND PARAMETER 


Phoenix 还 支持 可 索引 的 参数 ， 其 中 1 表示 第 一 个 参数 。 其 语法 树 如 图 B-24 所 示 。 


图 B-24 BIND PARAMETER 语 法 树 图 


可 索引 的 参数 示例 如 下 : 


25. 任 何 数据 类 型 或 Null 的 字面 值 VALUE 


VALUE 代表 任何 数据 类 型 或 Null 的 字面 值 。 其 语法 树 如 图 B-25 所 示 。 


图 B-25 VALUE 语法 树 图 


VALUE 的 使 用 示例 如 下 : 


10 


26 整 型 表达 式 CASE 


D 


当 CASE 值 等 于 WHEN 表达 式 的 值 ， 返 回 THEN 表 达 式 的 值 。 其 他 情况 返回 NULL。 其 语法 树 如 


B-26 所 示 。 


CASE term WHEN expression THEN term 


ELSE expression | ELSE expression | 


HB-6 ”CASE 语法 树 图 


整 型 表达 式 的 使 用 示例 如 下 : 


CASE CNT WHEN 0 THEN 'No' WHEN 1 THEN 'One' ELSE 'Some' END 


27. 选 择 条 件 表达 式 CASE WHEN 


当 WHEN 表 达 式 为 true， 则 返回 THEN 表 达 式 的 值 ， 否 则 返回 ELSE 表 达 式 的 值 。 如 果 没 定义 ELSE， 则 返回 NULL。 其 语法 树 如 图 B-27 所 示 。 


CASE WHEN expression THEN term 


选择 条 件 表达 式 的 使 用 示例 如 下 : 


图 B-27 CASE WHEN 语法 树 


CASE WHEN CNT<10 THEN 'Low' ELSE 'High' END 


28. 双 引号 括 起 的 名 字 QUOTED NAME 


区 分 大 小 写 。 无 长 度 限制 。 其 语法 树 如 图 B-28 所 示 。 


图 B-28 QUOTED NAME 语 法 树 图 


双 引 号 的 使 用 示例 如 下 : 


"first-name" 


29.84 ALIAS 


别名 只 在 声明 的 上 下 文 有 效 。 其 语法 树 如 图 B-29 所 示 。 


图 B-29 ALIAS 语 法 树 图 


别名 的 使 用 示例 如 下 : 


30. 空 值 NULL 


空 值 NULL 没 有 数据 类 型 。 其 语法 树 如 图 B-30 所 示 。 


习 B-30 NULL 语 法 树 图 


空 值 的 使 用 示例 如 下 : 


NULL 


31. 数 据 类 型 DATA TYPE 


MbigintType 
decimalType 


| unsig nerdl on ng Type 


neant ! ype 


LvarBinary Type 


图 B-31 DATA TYPE 语 法 树 图 


数据 类 型 的 使 用 示例 如 下 : 


CHAR (15) 
VARCHAR 
VARCHAR (1000) 
INTEGER 
BINARY (200) 


32. 字 符 串 STRING 


字符 串 类 型 由 单 引 号 括 起 。 其 语法 树 如 图 B-32 所 示 。 


图 B-32 STRING 语法 树 图 


字符 串 的 使 用 示例 如 下 : 


33. 注 释 COMMENTS 


注释 是 说 明 性 描述 字段 。 其 语法 树 如 图 B-33 所 示 。 


图 B-33 ” COMMENTS 语法 树 图 


注释 的 使 用 示例 如 下 : 


// This is a comment 


B.2 ”函数 支持 


Phoenix 的 SQL 也 支持 多 种 函数 ， 如 聚合 函数 、 字 符 串 函数 、 一 般 函 数 和 时 间 日 期 函数 等 。 所 支持 的 函数 如 下 所 示 。 


1. 聚 合 函数 


1) AVG: 平均 值 。 只 允许 在 SELECT 语句 使 用 。 返 回 值 类 型 和 参数 一 致 。 如 果 一 行 都 没有 选中 ， 则 返回 NULL。 示 例如 下 : 


AVG OO 


2) COUNT: 计数 。 返 回 值 为 long 型 。 只 允许 在 SELECT 语句 中 。 如 果 一 行 都 没有 选中 ， 则 返回 0。 示 例如 下 : 


COUNT C9) 
3) MAX: 最 大 值 。 如 果 一 行 都 没有 选中 ， 则 返回 NULL。 只 人 允许 在 SELECT 语句 中 使 用 。 返 回 值 类 型 和 参数 类 型 一 致 。 示 例如 下 : 


MAX (NAME) 


4) MIN: 最 小 值 。 如 果 一 行 都 没有 选中 ， 则 返回 NULL。 只 允许 在 SELECT 语句 中 使 用 。 返 回 值 类 型 和 参数 类 型 一 致 。 示 例如 下 : 


MIN (NAME) 
5) SUM: 合计 。 如 果 一 行 都 没有 选中 ， 则 返回 NULL。 只 允许 在 SELECT 语句 中 使 用 。 返 回 值 类 型 和 参数 类 型 一 致 。 示 例如 下 : 
SUM (X) 


2. 字 符 串 函数 


1) SUBSTR: 返回 子 串 。 第 一 个 参数 表示 源 字 符 串 ; 第 二 个 参数 表示 截取 的 起 始 位 置 ， 如 果 为 0， 则 从 字符 串 第 一 个 字符 开始 ， 如 果 为 负 值 ， 则 表示 从 字符 串 结 
取 长 度 ， 如 果 省 略 则 表示 一 直到 字符 串 结尾 。 示 例如 下 : 


SUBSTR ('[Hello]', 2, 5) 
SUBSTR ('Hello World', -5) 


2) TRIM: 删除 开始 和 结尾 空格 。 示 例如 下 : 
TRIM (' Hello ') 


3) LTRIM: 删除 左边 空格 。 示 例如 下 : 


LTRIM (' Hello') 


尾 开始 ， 往 前 偏 移 ， 第 三 个 参数 表示 截 


4) RTRIM: 删除 右边 空格 。 示 例如 下 : 


RTRIM ('Hello "0 


5) LENGTH: 返回 字符 串 长 度 。 示 例如 下 : 


LENGTH ('Hello') 


6) REGEXP SUBSTR: 正则 表达 式 取 子 串 。 第 一 个 参数 是 源 字符 串 ， 第 二 个 参数 是 正则 表达 式 。 示 例如 下 : 


REGEXP SUBSTR ('nal-appsrv35-sj35', "'[^-]9'O 结果 等 于 'nal' 


7) REGEXP REPLACE: 正则 表达 式 蔡 换 。 第 一 个 参数 是 源 字符 串 ， 第 二 个 参数 是 茜 换 


用 的 正则 表达 式 ， 第 三 个 参数 是 蔡 换 的 子 串 。 


示例 如 下 : 


REGEXP REPLACE ('abcl23ABC', ' [0-9]+'， '#') 结果 等 于 'abc#ABC' 


8) UPPER: 将 字符 串 全 部 转换 为 大 写 。 示 例如 下 : 


UPPER ('Hello') 


9) LOWER: 将 字符 串 全 部 转换 为 小 写 。 示 例如 下 : 


LOWER ('HELLO') 


10) REVERSE: 


反 转 字符 串 。 示 例如 下 : 


REVERSE ('Hello') 


11) TO CHAR: 格式 化 数据 为 字符 串 型 ， 针 对 日 期 、 时 间 、 时 间 惟 或 数字 。 示 例如 下 : 


TO CHAR (myDate, 
TO CHAR (myDecimal, 


'2001-02-03 04: 05: 06') 
Ud OHHO 


3. 一 般 函 数 


COALESCE: 如 果 第 一 个 参数 为 null， 则 返回 第 二 个 参数 的 值 ; 反之 ， 返 


第 一 个 参数 的 值 。 保 证 在 UPSERT SELECT 语句 中 的 列 为 非 空 值 。 示 例如 下 : 


COALESCE (last update date, CURRENT DATE () ) 


4. 时 间 日 期 函数 


1) ROUND: 将 时 间 戳 舍 入 为 最 接近 的 时 间 单 元 。 


第 一 个 参数 是 源 时 间 戳 ， 第 二 个 参数 有 5 类 : DAY、HOUR、MINUTE、SECOND、MILLISECOND。 第 三 个 参数 是 乘 数 ， 例 如 10 分 钟 ， 默 认 是 1。 返 


回 值 是 date 类 型 。 示 例如 下 : 


ROUND (date, 
ROUND (time, 


'MINUTE', 
'HOUR') 


30) 


2) TRUNCATE: 将 时 间 戳 截断 为 最 接近 的 时 间 单 元 。 


第 一 个 参数 是 源 时 间 戳 ， 第 二 个 参数 有 5 类 : DAY、HOUR、MINUTE、SECOND、MILLISECOND。 第 三 个 参数 是 乘 数 ， 例 如 10 分 钟 ， 默 认 是 1。 返 


回 值 是 date 类 型 。 示 例如 下 : 


TRUNCATE (timestamp, 
TRUNCATE (date,  'DAY', 


' SECOND', 
7) 


30) 


3) TO_DATE: 解析 


期 到 指定 格式 。 示 例如 下 : 


TO DATE ('Sat, 3 Feb 2001 03: 05: 06 GMT', 'EEE, 


d MMM yyyy HH: mm: ss z') 


4) CURRENT DATE: 服务 器 端 当 前 日 期 。 示 例如 下 : 


CURRENT DATE () 


上 面 方法 的 示例 值 如 2013-06-18。 


5) CURRENT TIME: 服务 器 端 当前 时 间 。 返 回 TIME 类 型 数据 。 示 例如 下 : 


CURRENT TIME () 


上 面 方法 的 示例 值 如 15: 34: 55. 


B.3 ”数据 类 型 


Phoenix 中 的 数据 类 型 多 达 13 种 ， 与 常规 RDBMS 所 共有 的 数据 类 型 基本 一 致 ， 详 细 的 数据 类 型 、 说 明 、 对 应 Java 类 和 长 度 等 ， 如 表 B-2 所 示 。 


表 B-2 Phoenix 语法 中 的 数据 类 型 


[1] 有 关 该 实现 的 详细 资料 ， 


以 使 


Gi 


INTEGER RERI D 取 值 范围 [-2147483648, 147483647] | java.lang.Integer 4 字 节 

UNSIGNED INT ;符号 整 型 取 值 范围 [0，2147483647] java.lang.Integer 4 字 节 

men 取 值 范围 [-9223372036854775808, | | | — 
9223372036854775807] 

UNSIGNED LONG | 无 符号 长 整 型 Juil [0. 9223372036854775807] | java.lang.Long s* 

DECIMAL 5 m 回 定 的 精度 和 规模 。 最 大 精度 为 Java.lang.BigDecimal 

BOOLEAN 布尔 类 型 取 值 为 TRUE 和 FALSE java.lang.Boolean 

TIME 时 间 型 格式 yyyy-MM-dd hh:mm:ss java.lang.Time | 8 字 节 

TIMESTAMP IDEs 格式 yyyy-MM-dd hh:mm:ss[.nnnnnnnnn] | java.lang. Timestamp 12 字 节 

VARCHAR 字符 串 型 UTF8 ius java.lang.String 

BINARY 二 进 制 型 固定 长 E 对 应 bytel] 数组 

VARBINARY 不 固定 长 度 对 应 byte[] 数组 


附录 C ”YCSB 编 i 


请 参见 http://blog.sematext.com/2012/04/09/hbasewd-avoid-regionserver-hotspottingdespite-writing-records-with-sequential-keys/。 


对 安装 


YCSB 是 一 个 很 棒 的 工具 ， 可 对 HBase 集 群 进行 基准 性 能 测试 。YCSB 支 持 以 并 行 方式 运行 可 变 的 负载 测试 ， 可 以 评估 系统 的 插入 、 更 新 、 删 除 和 读 取 性 能 。 因 此 ， 对 于 写 密集 和 读 密 集 HBase 集 群 都 可 


用 YCSB 来 进行 基准 性 能 测试 。 每 个 测试 都 可 以 配置 其 要 加 载 的 记录 数 、 要 执行 的 操作 次 数 、 读 写 比 以 及 许多 其 他 属性 ， 这 样 就 可 以 很 容易 地 使 用 YCSB 来 测试 集群 的 不 同 负载 情形 。 


本 附录 中 将 介绍 如 何 编译 、 安 装 YCSB。 由 于 官方 YCSB 只 支持 HBase 0.92.1 版 本 ， 所 以 需要 对 源码 做 一 些 少量 的 改动 ， 笔 者 已 经 将 这 些 改动 放置 到 GitHub， 所 以 接 下 来 讲解 的 内 容 将 直接 使 用 改动 后 的 
YCSB 版 本 。 


安装 Maven2 


首先 ， 使 用 下 面 的 命令 下 载 、 解 压 Maven2 相 关 的 工程 : 


wget http://mirrors.hust.edu.cn/apache/maven/maven-2/2.2.1/binaries/apache-maven- 
2. 


2.1-bin.zip 
mkdir -p /opt/modules/ 
mv apache-maven-2.2.1-bin.zip /opt/modules/ 
unzip apache-maven-2.2.1-bin.zip 


其 次 ,将 下 面 的 代码 内 容 追 加 到 /etc/profile 环 境 变量 文件 中 : 


export MAVEN HOME-/opt/modules/apache-maven-2.2.1 
PATH-S(MAVEN HOME] /bin: $PATH 
export PATH 


然后 ， 执 行 下 面 的 代码 使 得 环境 变量 配置 生效 ， 并 且 使 用 mvn-version 验 证 安装 : 


source /etc/profile 

mvn -version 

Apache Maven 2.2.1 (r801777; 2009-08-07 03: 16: 0140800) 

Java version: 1.7.0 21 

Java home: /usr/java/jrel.7.0 21 

Default locale: en US, platform encoding: UTF-8 

OS name: "linux" version: "2.6.18-274.e15" arch: "amd64" Family: "unix" 


如 果 出 现 类 似 上 面 的 输出 信息 则 说 明 Maven2 安 装 成 功 。 


C2 编译 YCSB 


使 用 下 面 的 命令 下 载 YCSB 源 代码 ， 并 重新 使 用 Maven2 编 译 : 


// 下 载 YCSB 

wget https: //github.com/mayanhui/YCSB/archive/master.zip 
unzip master 

cd YCSB-master 

//Maven2 编 译 YCSB 

mvn clean install 


如 果 遇 到 下 面 的 编译 错误 ， 说 明 JAR 包 asm-3.1jar 出 现 错误 。 


R] 


R] 


[compiler: compile (execution: default-compile)] 
Compiling 1 source file to /root/YCSB-master/hbase/target/classes 


error: error reading /root/.m2/repository/asm/asm/3.1/asm-3.1.jar: 
error in opening zip file 
1 error 


Compilation failure 
error reading /root/.m2/repository/asm/asm/3.1/asm-3.1.jar; error in 
opening zip file 


Total time: 6 seconds 
Finished at: Tue Jan 14 17: 49: 36 CST 2014 
Final Memory:  37M/607M 


解决 方法 是 : 进入 asm-3.1.jar 所 在 目录 ， 删 除 该 JAR 包 并 


执行 编译 ， 命 令 如 下 : 


cd /root/.m2/repository/asm/asm/3.1 
rm asm-3.1.jar 
wget http://repol.maven.org/maven2/asm/asm/3.1/asm-3.1.jar 


INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 


新 编译 后 ， 如 果 出 现 类 似 下 面 的 输出 信息 ， 说 明 编译 成 功 : 


/www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openr 
Core YCSB http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/ . .http: / /www.hzcourse.com/resource/readBook?path-/openr 
Cassandra DB Binding http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/. .http://www.hzcourse.com/resource/readBook: 
HBase DB Binding http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/ . .http: / /www.hzcourse.com/resource/readBook?patt 
Hypertable DB Binding http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/. .http://www.hzcourse.com/resource/readBook 
DynamoDB DB Binding http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?r 
ElasticSearch Binding http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/. .http: / /www.hzcourse.com/resource/readBook 
Infinispan DB Binding http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/..http://www.hzcourse.com/resource/readBook 
JDBC DB Binding http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/ . .http: / /www.hzcourse.com/resource/readBook?path- 
Mapkeeper DB Binding http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/..http://www.hzcourse.com/resource/readBook:? 
Mongo DB Binding http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/. .http: / /www.hzcourse.com/resource/readBook?patt 
OrientDB Binding http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/. .http://www.hzcourse.com/resource/readBook?patl 
Redis DB Binding http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/ . .http: / /www.hzcourse.com/resource/readBook?patt 
Voldemort DB Binding http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/. .http://www.hzcourse.com/resource/readBook: 
YCSB Release Distribution Builder http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14884/OEBPS/Text/ . .http: / /www.hzcourse.com/resov 


BUILD SUCCESSFUL 

Total time: 10 minutes 4 seconds 

Finished at: Tue Jan 14 18: 08: 06 CST 2014 
Final Memory: 148M/1529M 


